本发明提供一种基于强化学习的变化环境多智能体控制方法与装置,包括:将当前环境信息和各个智能体的隐含状态输入到智能体网络,得到智能体网络输出的各个智能体的观测动作价值;观测动作价值用于表征对应智能体当前执行所有动作的预估价值;基于各个智能体的观测动作价值,控制各个智能体执行动作;其中,智能体网络是基于样本环境信息和样本智能体的样本隐含状态,联合自加权网络进行强化学习得到的;自加权网络用于确定所有样本智能体执行动作的联合动作价值;在强化学习过程中,自加权网络的输入包括智能体网络输出的所有样本智能体的样本观测动作价值。本发明提供的方法与装置能够避免变化环境中智能体数量动态变化对训练过程的影响。
声明:
“基于强化学习的变化环境多智能体控制方法与装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)