本申请提供一种基于分层深度强化学习模型的机器人行为决策方法及设备,本申请通过模拟人脑的分层组织机理,提出了一个解决机器人稀疏奖励问题的深度分层强化学习模型,该模型包括顶层模块和底层模块两部分。在机器人环境认知的过程中,当其处于稀疏奖励的环境中时,上层模块根据智能体与环境的交互情况,为底层模块设定子目标,同时,上层模块可以感知环境并预测智能体的状态转移。此外,预测奖励和奖励增益被添加到该深度分层强化学习模型中来加速底层模块的学习速度,在底层模块中,设计了一个降维网络来编码和映射状态信息,因此,该深度分层强化学习模型可以有效解决智能体的稀疏奖励问题。
声明:
“基于分层深度强化学习模型的机器人行为决策方法及设备” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)