本公开公开了一种模型训练方法、装置、设备、存储介质和程序产品,涉及人工智能领域,尤其涉及强化学习、NLP等领域。具体实现方案为:获取用户在人机交互过程中输入的对话信息;基于对话信息,并利用第一意图识别模型、第一循环神经网络和第一命名实体识别模型,获得对应的预测信息;基于预测信息,并利用第一行为决策模型,获得对应的机器行为信息,以便机器在人机交互过程中基于机器行为信息做出的对应的机器行为;获取用户针对机器行为输入的反馈信息;将预测信息、机器行为信息和反馈信息中的至少之一作为训练数据存入数据库;以及响应于数据库中的训练数据达到预设数据量,基于数据库中的训练数据,并利用强化学习算法在线进行模型优化训练。
声明:
“模型训练方法、装置、设备、存储介质和程序产品” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)