本发明公开一种机器人自主学习方法、装置、设备及存储介质,该方法包括:基于预先构建的虚拟环境,获取由虚拟环境自动生成的环境参数;根据环境参数,通过深度学习模型生成训练数据;根据训练数据,采用分层强化学习框架生成至少一个机器人技能;根据待执行任务确定机器人的状态空间,基于状态空间,采用变分推理方法预测待执行任务的潜在技能向量,潜在技能向量与至少一个机器人技能中的其中一个机器人技能具有一一对应的关系;根据机器人技能和潜在技能向量,采用强化学习算法获得用于完成待执行任务的机器人控制策略。本发明在面对不同类型的任务时,无需重复针对不同类型的任务对机器人进行技能训练,提高了机器人进行自主学习的泛化性。
声明:
“机器人自主学习方法、装置、设备及存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)