本发明涉及一种多智能体强化学习训练方法及系统,其方法包括:局部策略训练阶段,智能体局部策略利用自身的局部观测信息做出动作;全局策略训练阶段,智能体的全局策略利用局部策略作为与环境交互的动作模块,全局策略以环境全局状态作为输入,给出对全局信息在隐空间中进行编码,同时利用全部智能体的局部观测信息使用神经网络对全局状态进行拟合;局部策略结合各自的局部观测信息以及全局策略的输出在环境中做出符合环境要求的合适动作;局部策略优化阶段,利用前两个阶段得到的全局策略与局部策略以及拟合模型,在现有的局部策略的基础上进行优化,最终得到效果更好的智能体。本发明能提升多智能体强化学习训练的速度和准确性。
声明:
“多智能体强化学习训练方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)