本发明公开了一种基于动态递归机制的分层强化学习的推荐系统,包括用户画像矫正器:采用一种动态递归机制的策略梯度方法,及引入参数动态稀疏权重以删除噪声数据来修改用户画像,其中,所述动态递归机制的策略梯度方法包括:动态基线和基于时序上下文的递归强化学习,所述动态基线为采用动态稀疏权重对总收益进行学习策略的改进;注意力机制:用于自动调整用户偏好的变化;推荐模型:用于通过注意力机制向用户推荐最相关物品。本发明的推荐系统,通过在策略梯度方法中引入一个参数动态稀疏权重,使智能体在全局最优策略下选择最优行为;其次,结合时间上下文的分层强化学习,该方法能够更可靠地收敛,从而提高模型预测的稳定性。
声明:
“基于动态递归机制的分层强化学习的推荐系统” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)