本申请公开了一种知识抽取方法、装置、设备和介质,涉及自然语言处理技术。具体实现方案为:获取输入文本、预先训练的预测器和奖励拟合器;依据强化学习的方法,对输入文本的输出文本序列的状态空间进行搜索,并在搜索过程中,根据预测器输出的预测序列中与各时间步下每个状态对应的下一个位置上所有单词的概率,和奖励拟合器对应拟合得到的奖励,确定各时间步下每个状态选择的动作;根据对状态空间的搜索结果,确定各时间步下的目标动作,并根据各时间步下的目标动作确定目标输出文本序列。本申请实施例通过在强化学习中增加对状态空间的探索,避免了预测阶段模型被困在局部最小值,并能细化到字词级别的评价,从而提高了模型的准确率和召回率。
声明:
“知识抽取方法、装置、设备和介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)