本发明公开了一种基于层次深度强化学习的复杂游戏AI设计方法,该方法包括:初始化上层策略、下层策略,初始化预测模型,之后:上层策略在初始状态随机给予下层策略子目标goal,下层策略基于状态state和子目标goal执行k个时间步,产生下层策略轨迹;保存下层策略轨迹,并使用该轨迹训练下层策略和预测模型;进行初步roll‑out产生轨迹,构建世界模型;K步后上层策略产生轨迹并保存,同时训练上层策略;在一定步数后,上层策略基于状态从构建好的世界模型中找到合适的子目标集合,并采样子目标给予下层策略并执行k步;迭代上述过程,不断完善策略和世界模型。与现有技术相比,本发明在降低策略训练难度的前提下,使AI在复杂游戏场景下更快更稳定学习到成熟的策略,有效地提高了策略所能达到的效果。
声明:
“基于层次深度强化学习的复杂游戏AI设计方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)