本申请公开了一种基于值函数可信度的多智能体强化学习方法及相关装置,方法包括基于各智能体的观测值确定各智能体的势能函数;基于各势能函数确定局部值函数及候选全局值函数;基于全局环境信息、局部值函数及候选全局值函数确定若干信誉值;基于各局部值函数、候选全局值函数及信誉值确定全局值函数;基于全局值函数及各智能体的势能函数,利用集中训练分布机制训练多智能体。本申请通过确定若干局部值函数可以学习到各智能体的局部环境信息,再结合若干局部值函数形成全局值函数可以提高全局值函数的精准性,提高多智能体强化学习的收敛速度。同时,在计算全局值函数时为各局部值函数配置信誉度,提高多智能体强化学习的学习效率以及鲁棒性。
声明:
“基于值函数可信度的多智能体强化学习方法及相关装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)