本申请公开了一种智能交互模型的训练方法、交互方法、装置及设备,该训练方法获取包括多个第一输入语句的第一输入信息,将第一输入语句输入到智能交互模型中,通过各个子交互模型对第一输入语句进行交互预测,得到多个初始输出语句,并通过中控子模型根据第一输入语句从多个初始输出语句选择对应的目标输出语句,对若干组第一输入语句和第一输入语句对应的目标输出语句进行匹配分析,得到匹配评分;并根据匹配评分确定奖励值,通过奖励值对中控子模型进行强化学习训练,得到训练好的智能交互模型。该训练方法可以提高智能交互模型处理多轮交互任务的性能,有利于改善用户体验。本申请可广泛应用于人机交互技术领域内。
声明:
“智能交互模型的训练方法、交互方法、装置及设备” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)