本发明提供了一种基于强化学习的机器人导航避障任务实现方法及系统,包括:将导航任务建模为马尔可夫过程,为强化学习方法设计状态空间、动作空间及奖励函数,确定完成任务的指标;分析控制屏障函数的约束条件,调整参数,训练得到参数化的控制屏障函数;利用建模步骤中设计的状态空间、动作空间及奖励函数,并调整强化学习算法中的超参数,训练得到策略网络;根据学习到的控制屏障函数,修改策略网络的输出,同时收集数据,更新控制屏障函数;通过预测屏蔽控制,对危险动作施加噪声,使智能体偏离预定轨迹,使训练过程安全。本发明基于强化学习的框架,整合了可证明的有效控制屏障函数,以确保学习过程中的安全探索。
声明:
“基于强化学习的机器人导航避障任务实现方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)