本发明公开了一种多智能体强化学习方法及系统,设计了中心化教师模块与去中心化学生模块的多智能体强化学习框架,在满足中心化训练和去中心化执行的条件的基础上,解耦了解决奖励分配和局部观测问题的模块,使得模型训练效率提升。此外,该框架具有普适性,即它可以用于一切基于中心化训练去中心化执行范式提出来的方法。同时,基于本发明上述方案,在主流的合作多智能体强化学习环境星际争霸2中进行实验,实验结果表明本发明上述方案在性能和训练效率上都超过了现有方法。
声明:
“多智能体强化学习方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)