中国知网查重算法更新后增加了源代码库,检测范围比之前大了很多,检测规则也更严格了许多。同时,系统算法加强了OCR图片识别功能,一些简单文字截图内容已经能够实现查重检测了,像表格这种纯文字截图基本能实现检测出。那么,中国知网查重算法更新后如何实现查重?
一、知网查重算法更新
知网查重vip5.2更新升级至最新版5.3,更新内容包括以下:检测范围多了一个源代码库,对软件工程等需要写代码的论文会有影响,其他专业不影响。报告中图、表、公式检测后还原回原文展示,新增了2019年9月以前发表文章。系统加强OCR功能,可识别图片,文中如果有“纯文字图片”,将可能被还原为文字放在文中进行检测,比如说表格截成图片就很可能不行了这方法。
二、知网查重算法如何实现的
知网查重的检测标准以“连续13个字与他人论文相似或重复”作为评判标准。以章节为单位,句子为基本单位。封面、摘要、绪论都会作为单独的章节参与检测并标出重复率结果,然后将所有的论文重复率计入整篇论文的重复率。既可以查文字部分,也可以查代码、公式、表格甚至外文的重复率,即,无论是原文本身的文字部分,还是其他表格、公式、代码等部分都会计算入知网查重的查重范畴以内。
三、知网查重模糊算法范围
目前知网采用的最先进的模糊算法,按照字符检索的方式对论文进行查重,将连续重复的13个字进行标红处理。知网的智能模糊算法能够将论文的内容识别进行分段查重,中国知网论文在检测过程中的一些内容是可以不进行论文的查重,它能够自动识别出,像论文的标题、目录、序言、结束语、附件这些内容知网都是不会进行论文的查重,而真正进行论文查重的只有知网论文的正文部分。
综上所述:中国知网查重算法更新后新增源代码库外,对图片识别能力加强了很多,一些纯文本内容基本能进行检测了。而原来的检测算法并没有更新,一样是连续13字算重复,还是采用了按目前分章节检测,部分内容依然自动识别不计入查重率。以上是“中国知网查重算法更新后如何实现查重?”全部分享。