一种基于优胜劣汰的深度强化学习策略网络的存储方法,该方法包括:获取当前训练周期的结果和策略网络;判断所述当前训练周期的结果是否满足策略网络测试要求;在判断所述当前训练周期的结果满足所述策略网络测试要求的情况下,进行策略网络测试;获得该策略网络测试的结果;判断所述策略网络测试的结果是否满足保存要求;在判断所述策略网络测试的结果满足保存要求的情况下,保存所述策略网络以及所述策略网络测试的结果。
声明:
“基于优胜劣汰的深度强化学习策略网络存储方法及设备” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)