论文反抄袭软件被“攻克”

2018-10-30 作者:小编

本是为防学术不端的论文抄袭检测系统,近来频频遭遇攻克。淘宝出卖个人自测服务系统,大学生可根据检测结果提前对毕业论文进行针对性的“易容”。

本是为防学术不端的论文抄袭检测系统,近来频频遭遇攻克。淘宝出卖个人自测服务系统,大学生可根据检测结果提前对毕业论文进行针对性的“易容”,而记者甚至还在百度文库中搜索到一份自称从中国知网内部工作人员手中拿到的“知网论文反抄袭检测系统的算法与修改秘籍”。

这种状况,让学者对论文抄袭检测系统在高校的推广提出了质疑,防止学术不端究竟该靠什么?

论文抄袭检测系统有用吗?

自1991年WordCheck软件应用以后, 自然语言文本的抄袭识别技术在国外就有了较大的发展,出现了多个抄袭识别系统,可以说国内正是效仿国外从而诞生了这类技术软件。

武汉大学信息管理学院教授沈阳告诉《北京科技报》,反抄袭软件的核心原理就是把两段话进行比对,简单说就是把一段话与已有文献库中所有文献的字符串进行比对,看文本字符串的相似度达到多少。
“比对原理很简单,难的是构建对较对象的数据库。”沈阳说,“理论上,完善的系统必然是拥有上所有文献的数据库,这样,抄袭的文章丢到里面进行比对才不会出现侥幸逃脱的可能性。”

据了解,中国知网开发的学术不端行为检测系统是目前使用范围广的官方检测系统,其比对库包含了中国学术期刊网络出版总库、中国博士学位论文、中国优秀硕士学位论文全文数据库、中国重要会议全文数据库文、中国重要报纸全文数据库、中国专利全文数据库等,基本覆盖了除书籍之外的所有中文科技学术文献。

对于任意一篇需要检测的文献,该系统首先会对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹,而比对资源库中的比对文献,也采取同样技术创建指纹索引。原则上,只要检测文献与比对文献存在一个相同的句子,就能被检测系统发现。

《资源科学》杂志是中科院地理科学与资源研究所和中国自然资源学会主办的学术月刊。从2009年1月起,编辑部开始使用“科技期刊学术不端文献检测系统”对自由来稿进行检测。根据两年多的使用情况,该刊副主编李家永研究员认为,该系统是一个非常实用的检索工具。

他向记者解释,该刊来稿的文字复制率分布具有稳定性特征。“复制率<5%的稿件约占一半,<20%的约占3/4,并且不同机构投送的稿件有明显差别。高复制率(>50%)的稿件多为作者自引或重复发表,严格意义上的抄袭仍然只是少数;并且在重点院(校、所)多是低职位作者抄袭情况严重,而在普通院(校、所)则是高职位作者更为突出。”

“抄袭现象泛滥也与电子文档不仅传播速度快,而且复制非常便利不无关系。在政治、法律、道德环境建设跟不上计算机与网络技术发展速度的现实情况下,用技术手段解决一些问题也是合理的逻辑。”李家永认为。

检测系统遭攻克源于先天不足

沈阳告诉《北京科技报》,检测系统在两个字符串进行比较时有多种模式。种属于相似,也就是出现与其他文献一字不差的句子。针对这种情况,系统自身会设定一个起限的字符串长度,如有超过该起限的若干个连续字符跟别的文章是一模一样的,那么系统就会将其标红。

另一种则是相对相似,如果作者在抄袭时进行词语替换,这样的比对难度就大大增加了。现有的方法中,特征词串法就是把段落中不重要的词先过滤掉,留下一些特征词串,系统会设置一个阈值,比如,在60个字符中除去那些不重要的词,特征词串超过20个相似的就被标注出来。国内外有些系统还能做一些简单的词替换的检测。

但沈阳坦言,目前国内外的成熟技术只能做到相似的检测没有误差,如果作者从直接抄袭上升到词替换、语义抄袭甚至是核心思想抄袭,这类检测还无法做到天衣无缝。

使用不当会影响系统检测的准确性

“目前系统的检测标准对于论文都是一样的,事实上,并非所有论文都是复制率越高,抄袭的可能性越大。”李家永指出,“不同学科、不同类型的学术论文的写作方法和评价体系客观上是不同的,报道研究成果的论文复制率相对较低;而综述性、评论性文章需要大量引用其他文献,必然会出现较多的文字、句子,甚至段落与他文重合。”

他进一步解释,特别是批判性文章,开篇就要摘录一些原文内容,然后作者根据自己的知识积累,列举大量文献资料作出证明,这就涉及大量“复制”;作者得出别人的研究结论不能成立只需几句话就够了。像这样的文章即使复制率高达80%,也应该算是好文章,因为学术探讨在求真的过程中更需要去伪。

因此,李家永强调,“抄袭必然复制,但复制不等于抄袭”,作为检测系统的主要指标,复制率对于把好稿件初审关来说很有帮助。如果图方便,机械地把检测软件的复制率作为判断论文是否抄袭或者剽窃的依据就属于使用不当。

防止学术不端根本在于制度

目前国内外的论文抄袭检测技术并无多大差异,其客观上提高了学者的抄袭成本,很大程度上遏制了一部分直接抄袭的行为。当然,还有一部分被测试者,可能出于审慎的目的,或是规避检测风险,从追寻系统漏洞的角度寻找应对的办法,这样一来,检测变成了一场人与计算机的博弈。

作为国内曾经的反剽窃软件技术研发人员,沈阳认为,人脑的反应速度总是高于机器的,它可以迅速适应各种检测模式。因此,该软件的应用变成了一个漫长进化的过程,需要不断完善。
而另一方面,沈阳也担心,随着软件技术不断被应用,其本身必然遭到更大面积的曝光,软件从一个黑盒走向了一个透明盒子,其有效性实际是在降低的。因此,检测软件只能作为辅助工具,而不能作为判别学术清白的利器。PaperisOk论文查重网提供中国知网查重官方入口服务,所有论文查重系统均来之官网检测,查重报告均支持验证真伪!不论您学习哪个专业,写作什么类型的论文,只要您有文本相似度检测的需求,中国知网查重检测系统总有一个版本适合您。

“要从根本上杜绝抄袭、剽窃的行为,一方面通过完善学术评价体系降低学者抄袭、剽窃的需求,另一方面则是要加大抄袭之后的惩戒力度。”沈阳告诉记者,在国外防止学术不端核心的不是技术手段,而是制度约束,抄袭、剽窃一经查实,惩处力度非常之大,这是使得大多数学者远离学术不端的重要的原因。

至于目前大学生热衷的自测行为,李家永则以宽容的心态来看待。他认为学生本来就需要有一个学习、模仿的过程,通过自测可以了解到自己文章的复制情况,如果以积极的心态认真自测,还可以进一步知道都有哪些人在该领域已经做了哪些工作,同时客观上也能起到自我监督的作用,对于严重抄袭的文章,如果作者自测后能够主动纠错更是一种觉悟。“关键是看自测的目的是什么。”

作者:胡珉琦
来源:北京科技报 2011年17期

.—— END ——.