本发明公开了以互联网重复文档反作弊需求为背景,以Simhash算法为文档判重的核心算法为基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素;针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较;从理论上分析,文档失效时间设置的越长,其在存储系统中存储的时间就越长,存储空间变大,影响查询效率,因此对请求耗时有影响;这也是系统设置对冷热数据进行处理的原因。
声明:
“基于互联网海量文档反作弊技术” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)