本发明公开了一种推荐模型的训练方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据获取的用户行为数据生成训练数据集;将训练数据集输入至待训练模型中以得到第一预测结果;根据第一预测结果生成中间预测数据,并将中间预测数据输入至待训练模型中以得到第二预测结果;根据第一预测结果和第二预测结果计算反馈函数,并根据反馈函数更新待训练模型以进行模型训练。该实施方式基于强化学习的思想,将模型的预测结果引入模型训练中,使得预测结果的误差大大的减小,可以帮助模型加快收敛,减少模型迭代的次数,加快训练效率,解决了仅有短期会话数据时无法很好地进行推荐的技术问题。
声明:
“推荐模型的训练方法和装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)