本发明涉及人工智能技术领域,尤其是涉及一种基于适应度预测的强化学习模型训练方法及其系统。本方法中,需要先获取输入参数,并根据输入参数计算得到真实适应度原始值,再对输入参数进行降维处理,并基于适应度预测网络对降维处理后的输入参数进行适应度预测,得到预测适应度值,进一步,从输入参数中筛选得到目标参数,再进一步,对目标参数进行处理得到策略执行动作,从而对目标环境进行检测,获取环境参数,最终基于环境参数对强化学习模型进行优化训练,得到训练好的强化学习模型。本发明通过适应度预测网络在适应度评估之前预先过滤掉明显不适应目标环境的输入参数,减少了强化学习模型进行适应度评估所耗费的算力资源以及时长。
声明:
“基于适应度预测的强化学习模型训练方法及其系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)