本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题。本方法包括:分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据Q值,得到e‑greedy策略,进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。
声明:
“基于集成学习的多智能体信用分配方法、系统、设备” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)