基于强化学习的多机器人围捕多目标的分布式决策方法,包括:一、仿真环境初始化,随机生成障碍物、追逐者和逃跑者的状态信息,追逐者和逃跑者都为智能体的机器人;二、获取机器人的观测值信息;三、获取机器人的可行动作,遍历其动作空间得到可行动作集;四、策略神经网络根据观测值信息从当前状态的可行动作集中选择出一个动作;五、仿真环境根据选择出的动作对机器人进行更新并计算执行该动作获得的奖励;六、将四‑五的决策过程存储到经验收集池中;七、重复二‑六直到达到单轮最大的仿真时间;八、根据存储器中的各个智能体与仿真环境的交互信息,使用多智能体强化学习算法进行训练;九、重复一‑八直到达到最大的交互训练轮数。
声明:
“基于强化学习的多机器人围捕多目标的分布式决策方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)