本发明公开了一种基于相似上下文和强化学习的中文词向量生成方法,解决了现有的中文词向量生成方法都是考虑基于目标词的相邻上下文和目标词的关系来进行预测的,没有考虑到在中文中有些单词虽然相邻,但是语义不相关的情况,且词向量的表示质量不高问题。本发明方法包括:选取语料库,进行语料库预处理,从而构建中文语料库;对中文目标词进行相似上下文发现,获得与中文目标词的语义相关的相似上下文;构建中文词向量强化学习框架,并进行强化学习,得到中文目标词的词向量表示。本发明能够解决中文相邻词不相关的问题,生成高质量的中文词向量。
声明:
“基于相似上下文和强化学习的中文词向量生成方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)