本发明涉及人工智能技术领域,具体涉及一种面向模拟推演的主动式序列决策方法、装置和介质,该方法包括如下步骤:步骤1,面向大规模强化学习的系统状态划分;步骤2,模拟推演环境的持续数据采集;步骤3,基于流数据的实时状态预测与判断;步骤4,启动基于多主体多目标强化学习的决策。本发明有以下优点:(1)为模拟推演系统提供主动式决策支持,可以避免或延缓未来某一异常状态的发生;(2)通过并行算法支持大规模多主体多目标强化学习。基于这些优点更好地解决了如何高效地在模拟推演环境中寻求可以避免损失的优化序列决策,从而指导现实环境中决策的问题。
声明:
“面向模拟推演的主动式序列决策方法、装置和介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)