本说明书一个或多个实施例提供一种推荐列表的生成方法、装置和电子设备;所述方法包括:获取用户的用户特征;根据所述用户特征和预先训练的强化学习模型,得到所述用户点击推荐列表中的列表项的预测结果;响应于所述用户对所述推荐列表中的列表项的点击操作,得到点击结果;根据所述预测结果和所述点击结果,确定对应于所述预测结果的奖励分数;确定基准奖励分数;根据所述基准奖励分数,采用策略梯度算法优化所述强化学习模型,优化后的所述强化学习模型用于生成对应于所述用户的推荐列表。
声明:
“推荐列表的生成方法、装置和电子设备” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)