本申请实施例提供了一种响应消息输出方法、装置、存储介质和电子设备,所述响应信息输出方法,所述方法包括:获得当前节点的信息;将所述当前节点的信息输入响应节点预测模型,以确定所述当前节点对应的目标响应节点;输出所述目标响应节点的信息;其中,所述响应节点预测模型是根据不同节点之间的转移关系,对预设模型进行多次强化学习训练所得到的模型,每次强化学习训练的奖励值是根据所述预设模型本次预测的响应节点与预设期望响应节点之间的匹配度确定的。在模型针对每次输入而得到的输出结果的基础上,对模型施加即时奖惩,以使模型根据获得的即时奖惩进行迭代更新,从而提高强化学习的效率。
声明:
“响应信息输出方法、装置、电子设备及可读存储介质” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)