本发明公开了一种多代理强化学习合作任务场景下的代理间交换知识的方法,包括:每个代理独立观测环境,使用神经网络将环境进行编码,提取相关的特征向量;所述代理将各自的特征向量交由中心站(使用循环神经网络实现)进行整合,所述中心站为各代理生成新的知识编码并进行分发;所述代理接收到新的知识,整合旧有的环境特征向量,然后输入神经网络策略进行决策;上述所有神经网络的参数学习是端到端进行的。该方法能够对多个代理所观测的知识进行整合,帮助多代理系统在合作任务上学习到更好的策略。其中,代理的数目不受限制。
声明:
“多代理强化学习合作任务场景下的代理间交换知识的方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)