本发明公开了一种互联网地质数据检索与获取的方法,包括:将地质叙词表转换成EXCEL格式的电子版叙词表;依据检索“关键词”,通过与电子版叙词表比对获取等级关系、等价关系、相关关系的关联词;利用相关性层级数的设置对关联词数量进行收敛控制;检索关键词和关联词,爬虫程序依据检索结果的页面数据和爬取规则,爬取该页面数据(主网页)以及该页面数据中每条网址链接的数据;对网页数据进行地质主题相关性计算,确定相关的数据。通过发明方法对地质数据抽取,可实现地质信息和新闻的定期、定向的精确提取,解决了采用传统数据爬取方法与地质大数据特性之间的矛盾,有效提升数据发现的全面性,可以高效的获取互联网地质相关数据。
声明:
“互联网地质数据检索与获取的方法及其装置” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)