本发明涉及一种基于行动者评论家强化学习算法的循环网络人机对话方法。该系统由两个子系统构成:对话生成系统和情感分析系统。对话生成系统基于门循环单元网络模型,使用有标签的对话数据集进行训练。进一步地,我们对经过训练的模型使用强化学习中的行动者评论家算法进行参数调优;即,我们使用已被训练的模型建立两个网络,分别称之为“行动者”网络和“评论家”网络;进一步地,为了减少训练时间、提高资源的利用率,我们创建了多个进程,向每一个进程分配一对“行动者”和“评论家”。
声明:
“基于行动者评论家强化学习算法的循环网络人机对话方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)