本发明公开了一种基于强化学习的零样本学习模型的训练方法及装置、计算机可读存储介质,该方法包括以下步骤:获取已训练的分类模型;固定已训练的分类模型的参数,将训练数据输入已训练的分类模型;从已训练的分类模型获取训练数据经特征提取后得到的特征数据,将特征数据转换为状态向量;将状态向量输入基于强化学习的动作预测模型,根据当前的奖赏值进行预测得到动作预测结果并执行相应的动作,以对输入的训练数据进行调整;通过损失函数优化基于强化学习的动作预测模型的参数,得到已训练的基于强化学习的动作预测模型,再与已训练的分类模型组成已训练的基于强化学习的零样本学习模型。本发明实现了进一步提高零样本学习模型的性能的效果。
声明:
“基于强化学习的零样本学习模型的训练方法及装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)