本发明公开了一种基于虚拟场景训练的机器人模仿学习方法。所述方法包括以下步骤:根据具体任务设计机器人模型和虚拟交互环境;采集和整理专家数据集;根据具体任务确定状态取值空间S和动作取值空间A,根据状态取值空间S和动作取值空间A确定策略生成器网络和判别器网络的结构;从策略生成器采样数据,设计参数更新策略,结合专家数据集采用对抗训练方法交替训练策略生成器和判别器,直到判别器收敛至鞍点;对由训练得到的策略生成器和判别器组成的网络模型进行测试,将真实的环境状态作为策略生成器输入获得动作输出。本发明采用判别学习一个价值回报函数,绕过大量复杂且计算量高的逆强化学习的中间步骤,学习过程更加简洁高效。
声明:
“基于虚拟场景训练的机器人模仿学习方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)