本发明公开了一种用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法,属于强化学习技术领域。初始化多智能体的效用函数网络参数、混合网络参数和目标混合网络参数;获取每一个智能体的自注意力输出和稀疏化注意力输出;使用门控循环单元模块编码当前观测输出,计算本地常规效用函数和本地稀疏效用函数,分别输入到混合网络中,各自拟合得到常规全局价值函数和稀疏全局价值函数,逐渐降低常规全局价值函数的权重,完成强化学习的训练。在决策推理阶段,各个智能体根据本地观测和自身效用函数来选择动作输出给环境,从而与环境进行交互。本发明可以嵌入到任何基于价值函数的MARL框架中,提升智能体决策的效率和精度。
声明:
“用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)