本发明提供一种基于动作剪枝的推荐方法、装置、电子设备与存储介质,包括:基于目标用户的用户特征和各待推荐内容的内容特征,确定各待推荐内容对应的状态;基于各待推荐内容对应的状态和评分预测模型,预测各待推荐内容的评分,并基于各待推荐内容的评分,向目标用户进行推荐;评分预测模型是强化学习得到的,在强化学习过程中,评分预测模型从遗憾值集合中获取当前样本状态下各候选评分的遗憾值,并基于遗憾值大于预设阈值的候选评分进行评分预测,遗憾值集合存储有历史状态及其对应的遗憾值,遗憾值基于历史状态下各候选评分的优势确定,历史状态是在当前样本状态之前的样本状态,加快强化学习的收敛速度,实现对用户进行个性化的精确推荐。
声明:
“基于动作剪枝的推荐方法、装置、电子设备与存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)