本发明公开了一种基于多步新奇度的时态序列迭代预测算法、介质和设备,算法包括先基于时态序列数据建立内、外部模型,初始化多维经验矩阵;外部模型抽样训练;外部模型在每一次交互中,从时态序列数据获取当前状态和奖励,并输出当前状态、行为和预测的执行行为后的状态;内部模型对外部模型预测的状态进行多步预测,预测信息存储到多维经验矩阵中,不断迭代更新内部模型;定义新奇度,在外部模型的每一次迭代,从多维经验矩阵中抽出对应元素,并比较每个元素和外部模型预测的状态来计算新奇度;基于新奇度不断迭代更新内、外部模型,多维经验矩阵也根据时间节点不断更新。本发明解决强化学习中稀疏奖励的训练障碍,可达到模型更快收敛的效果。
声明:
“基于多步新奇度的时态序列迭代预测算法、介质和设备” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)