本发明公开了一种基于深度强化学习的分层决策方法,先初始化决策对象的战术决策层智能体和意图识别层智能体,意图识别智能体采用深度循环Q网络根据输入的意图识别观测信息,生成意图识别层行为,根据意图识别层行为选择战术决策层智能体;战术决策层智能体采用深度确定性策略梯度算法,根据战术决策观测信息计算战术决策层智能体的行为。本发明战术决策层和意图识别层在训练时是相互独立的,在决策时是相互联系的,避免了同时训练难以收敛的问题,能够加快训练时的算法收敛速度,进而提升智能体整体决策能力。
声明:
“基于深度强化学习的分层决策方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)