本发明公开了一种融合用户满意度的任务导向型对话策略学习方法。所述方法包括以下步骤:收集人机对话数据并结合任务场景进行数据清洗;提取出对话中的意图、槽值和情绪状态信息,并进行向量化表示;构建对话策略模块;构建情感策略模块;构建加权融合模块,获取候选响应动作对应的聚合动作价值与动作情感价值的总得分,并根据总得分预测响应动作;获取预测的响应动作后的对话状态、奖励和用户真实情绪状态信息,优化对话策略模块和情感策略模块的网络参数。本发明充分考虑了对话和情感状态的特征,通过融合深度强化学习和监督学习技术,兼顾对话效率和用户满意度目标,提高了对话策略模型的效果。
声明:
“融合用户满意度的任务导向型对话策略学习方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)