本发明公开了一种基于群体博弈的多智能体交互方法及系统,所述方法包括:初始化智能体强化学习所需的预设参数,初始化智能体的Q表,并初始化学习周期;获取常微分方程的求解阈值,并将常微分方程的求解阈值进行衰减处理;初始化系统状态,采用贪婪策略选取智能体的联合动作;每个智能体执行所选取的动作,并接收观测样本和奖励;构建基于智能体的Q表的群体博弈,利用基于继承的BNN群体博弈动态算法求解近似均衡策略;智能体基于得到的期望奖励更新Q表。本发明不需要精确求解每个阶段博弈的均衡策略,以相对较低的计算复杂度求得近似均衡,通过设计常微分方程求解加速机制,实现均衡复杂度和均衡精度的最优权衡,以及多智能体系统的最优性能。
声明:
“基于群体博弈的多智能体交互方法及系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)