本发明公开了一种基于分层强化学习的群体对抗系统,包括上层宏观策略网络和下层微观动作网络;所述上层宏观策略网络包括多个智能体采用的多个策略网络和混合网络,每个策略网络用于依据当前时刻的观测状态和前多个时间步的子目标计算输出当前时刻的预测子目标;混合网络用于根据全环境状态信息、各子智能体采用策略网络输出的预测子目标计算输出宏观总目标作为下一时刻各智能体的子目标;所述下层微观动作网络包含多个智能体采用的多个DQN,每个DQN用于根据当前时刻的观测状态和当前时刻的子目标计算输出决策动作。该系统中智能体能够在兼顾宏观总目标和个体子目标的情况下生成更准确决策,适用于多智能体协同博弈对抗的游戏环境中。
声明:
“基于分层强化学习的群体对抗系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)