本发明公开了一种基于统计与条件随机场的复杂中文地名识别方法,包括如下步骤:首先通过爬取权威网站NGAC的地质文章标题数据,制作复杂地名语料库;随后根据复杂地名语料库进行字频以及词频的统计,生成关联性词典;然后记录待识别原文中的相邻词之间的关联性并通过与关联性阈值比较进行复杂地名的字词连接,最终将识别的地名进行输出;最后采用中国地名数据建立关联性字典,用复杂地名语料库制作训练数据和测试数据,训练复杂地名识别模型的阈值,并将所有关联性数值中的最小值作为新的阈值。本发明结构设计合理,本发明不仅能够对复杂地名进行识别,同时还具有很高的复杂地名识别准确率。
声明:
“基于统计与条件随机场的复杂中文地名识别方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)