本申请涉及人工智能技术领域,公开了一种对话方法、装置、电子设备及可读存储介质,对话方法包括:获取用户输入的目标问句;基于训练后的强化学习模型,确定与所述目标问句对应的反馈动作;其中,所述强化学习模型是基于至少两轮样本对话、以及至少两轮样本对话所确定的奖励函数训练得到的;每一轮样本对话包括样本问句和对应的样本答句;确定与所述反馈动作对应的目标答句,并输出所述目标答句。本申请提供的对话方法使得最终训练得到的强化学习模型的预测准确率更高。
声明:
“对话方法、装置、电子设备及可读存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)