本申请实施例适用于人工智能技术领域,提供了一种决策模型训练方法、装置、终端设备及存储介质,该方法包括:获取仿真系统处于任一故障下的第一状态信息;仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统;将第一状态信息输入至初始决策模型中,得到初始决策模型预测的目标恢复动作;获取仿真系统执行目标恢复动作后的第二状态信息,以及仿真系统的系统健康度;将第一状态信息、目标恢复动作、第二状态信息以及系统健康度作为一组仿真经验数据;根据仿真经验数据,对初始决策模型进行强化学习训练,得到目标决策模型。采用上述方法训练决策模型可以提高模型的训练效率。
声明:
“决策模型训练方法、装置、终端设备及存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)