本发明涉及一种基于Q学习模型的结果推送方法和系统,包括以下步骤:将状态s
t、推送结果a
t,下一状态s
t+1和奖励值r
t+1组成一个数据组,并将其存储至经验池D中;从经验池D中提取若干数据组,计算网络参数
下的全梯度均值,此时的网络参数为锚点网络参数;随机提取上一步骤中的数据组,并计算其在当前网络参数下和锚点网络参数下的目标Q值和梯度值,将梯度值和全梯度均值带入方差缩减公式实现梯度更新;重复上述步骤直至训练结束,获得最终的Q学习模型,将待测状态输入最终的Q学习模型获得最佳推送结果。其通过将方差缩减技术引入到随机梯度下降的Q学习模型中,提高了强化学习的训练过程的稳定性。
声明:
“基于Q学习模型的结果推送方法和系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)