在传统的策略搜索强化学习方法中,为了快速得到有效的策略,策略模型一般都是为特定任务专门设定的低维空间策略模型,而这种策略模型在实际应用表现力十分有限,泛化能力差,很难适应其他的任务。根据以上问题,本发明提出一种具有自适应能力的高效强化学习策略模型,所提出的策略模型以感知状态的低维表示及智能体对自身行动所引发的环境变化的预测作为策略的输入。这种策略所建立的策略模型具有较高的泛化能力,即使任务发生了细微变化,智能体仍然能够根据自身对未来的预测进行自适应地调整策略,从而得到泛化能力强的高效策略。
声明:
“具有自适应能力的高效强化学习策略模型” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)