本发明公开了一种协作多智能体强化学习方法,步骤如下:获取每个智能体的观测信息和系统的全局状态;将获取的每个智能体的观测信息传入深度神经网络计算得到智能体所有动作的状态动作值;利用贪心规则进行动作选择;将采取的动作对应的状态动作值和全局观测信息传入奖励高速路网络中;奖励高速路网络进行信息融合并输入联合的状态动作值;利用环境给出的奖励信号进行梯度的反向传播并更新神经网络的参数从而得到每个智能体的策略模型。本发明能够降低多智能体系统训练过程中所需的数据量,并适合推广到大规模的多智能体系统中。
声明:
“协作多智能体强化学习方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)