本发明涉及一种基于多智能体强化学习的合作型智能体的学习方法,步骤一:重置多个目标环境;步骤二:初始化策略网络π
θ的模型参数θ
π和全局信息预测网络f
θ的模型参数θ
f;步骤三:在环境中对多环境中的多智能体以当前策略π进行采样;每一步中,环境中的多个智能体共享同一状态,针对每个智能体对状态提取特征后作为模型输入的数据;步骤四:对模型参数θ
π和θ
f进行更新;步骤五:直至模型收敛或达到最大步数。本发明在智能体处于合作关系的环境下更好地利用了全局特征信息,通过局部信息预测全局信息的模型令每个智能体学会感知局部信息与全局信息的联系,更好地协作;使得不同智能体得以直接共享模型参数,简化模型复杂度,提高效率。
声明:
“基于多智能体强化学习的合作型智能体的学习方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)