本发明提供一种训练推荐领域中强化学习模型的模拟器,其由2个核心模型组成,一是基于GAN的用户状态生成模型;另一个是环境反馈算法,其中,环境反馈算法包括基于层次注意力的用户评级预测模型,以及用户反馈计算模型。本发明可以生成用户状态,以及对推荐智能体生成的动作进行反馈。实验结果表明,在小数据集的条件下,借助GAN网络结构的特性,模型依旧能生成可用的用户状态,同时,评分结果也在可用范围之类,此外,所构建的反馈算法不仅能够有效终止学习过程,而且所计算得到的反馈数据也符合强化学习的训练要求。
声明:
“训练推荐领域中强化学习模型的模拟器” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)