本发明公开了一种新的强化学习迁移方法,即基于动作模式的迁移,利用已有的模型加速解决新的未知任务。该迁移方法可用于不同状态空间任务间的迁移,即用简单状态任务的知识,帮助解决复杂状态的任务。本发明定义了动作模式,并提出动作序列预测模型从源任务中提取该知识。对动作模式如何迁移到目标任务上,提出了两种方法:基于内在奖赏机制的迁移和启发式探索策略的迁移。
声明:
“基于动作模式的强化学习迁移方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)