本说明书实施例提供一种基于强化学习模型预测样本标签的方法,所述方法包括:通过所述强化学习模型进行针对第一标定样本的连续N次预测,获取与N次预测分别对应的N个预测标签,其中,从第二次预测开始的每次预测的预测标签属于上一次预测的预测标签的预定子标签集合,第一次预测的预测标签属于预定标签集合,所述N为大于等于1的整数;基于预先标定的所述第一标定样本的标定标签和所述第N次预测得到的预测标签,确定与所述N次预测对应的奖励分数,所述预测标签对应于第N次预测得到预测标签标识;利用所述奖励分数优化所述强化学习模型,优化后的强化学习模型用于预测第一预测样本的样本标签。
声明:
“基于强化学习模型预测样本标签的方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)