本说明书公开了一种信息推荐方法、装置、存储介质及电子设备,本说明书实施例在进行信息推荐时,通过不同的强化学习模型输出每种排布方式对应的不同的累积折扣奖励期望分布,最后,根据每种排布方式对应的不同的累积折扣奖励期望分布,确定目标排布方式,以目标排布方式排布各推荐信息以及各广告,并展示给用户。此方法中,由于累积折扣奖励期望分布是基于用户对同一排布方式展示的各推荐信息和各广告执行指定操作行为的概率分布所确定的,每个强化学习模型的模型参数不同,这样通过不同的强化学习模型预测同一排布方式的累积折扣奖励期望分布,可以避免因用户随机行为导致奖励随机的问题,从而提高信息推荐的准确性。
声明:
“信息推荐方法、装置、存储介质及电子设备” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)