本发明提供了一种软件代码中重复片段的检测提取方法,该方法包括如图的步骤一到步骤八,由于代码片段提取采取的语法树中的分层的信息,考虑了代码片段中的语法信息,使得提取的代码片段是有意义的。此外,代码片段的提取过程受到基于倒排索引的查重机制控制:如果已经发现高层次的重复了,低层次就不提取了。这种提取方法相较目前的大多数技术中先分到最小的片段检查重复然后再进行组合的方式,可以节约很多计算量。过程中,检测窗口大小能够根据实际是否存在重复的上下文进行自动调节,提高性能,检测速度快,可以被应用于实时检测场景。同时因为该方法结合了语法结构信息,因此误判率非常低。
声明:
“一种软件代码中重复片段的检测提取方法” 该技术专利(论文)所有权利归属于技术(论文)所有人。仅供学习研究,如用于商业用途,请联系该技术所有人。
我是此专利(论文)的发明人(作者)