英文文献在论文相似性检测中的检索技巧

2018-10-19 作者:小编

[摘 要] 相似性检测系统针对学术不端行为研发使用,本文阐述了英文文献检测过程中的影响因素、常见文献类型的检索技巧以及复制比分析等。
[关键词] 相似性检测;英文文献;检索技巧
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2015 . 13. 117
[中图分类号] G647.2 [文献标识码] A [文章编号] 1673 - 0194(2015)13- 0195- 03
学术不端是指在申请课题、实施研究报告结果的过程中,出现的捏造、篡改或抄袭行为。不端行为主要被限定在“伪造、篡改、抄袭”(Fabrication,Falsification,Plagiarism,简称FFP )三者中。随着学术竞争日渐激烈,学术界存在某些弄虚作假、行为不良或失范的风气。在职称晋升、申请立项、毕业答辩等科研环节中,存在剽窃他人研究成果、稍加改动甚至全盘照搬占为己有的行为,或者一稿多投以数量取胜为自身谋取利益等现象。目前在国内学术界,这些违背科学精神和道德的现象广泛存在于科研机构、大专院校等各个层面,极大地败坏了学术风气,阻碍了学术进步,给科学和教育事业带来严重的负面影响。鉴于学术不端严重削弱了学术界的公平竞争,很多单位在职称评聘、应届毕业生答辩资格取得、新文章发表等工作中,适时引入了相似性检测这一硬性规定,针对著作、中外文期刊论文等科研成果进行严格的相似性检测,规定了一定的相似比,相似性处于该相似比之内的成果方可过关,否则一票否决。PaperisOk论文查重网提供中国知网查重官方入口服务,所有论文查重系统均来之官网检测,查重报告均支持验证真伪!不论您学习哪个专业,写作什么类型的论文,只要您有文本相似度检测的需求,中国知网查重检测系统总有一个版本适合您。
针对相似性检测,当前国内多家数据商均研发了学术不端检测系统,后台比对数据库资源丰富、涵盖面广,包括期刊全文数据库、学位论文数据库、会议论文数据库、报纸全文数据库、互联网数据库、港澳台数据库、优先出版数据库等;针对英文文献,也增加了相关的期刊、博硕、会议的英文比对数据库。比对范围广泛全面,比对系统日趋完善。而且根据被检测人自身文献的发文状况,还引入了个人比对库,使得检测的严格性和人性化相结合,在一定程度上净化了学术竞争环境,促进了学术竞争公平、公正地发展。
随着科研的飞速发展和更高要求,国内科研人员越来越注重外文研发,英文专著、学位论文、期刊论文的数量日渐增多。为了适应这一现状,学术不端检测系统也相应地整合了多个英文资源比对数据库,如中国知网文献总库、德国Springer全文期刊数据库、英国Taylor&Francis期刊数据库、荷兰Elsevier数据库等。比对的英文文献类型包括期刊论文、会议论文、学位论文、图书等。在相似性检测过程中,英文文献查重存在一些技巧,比如外刊检索中优先出版、出版周期、刊种确定、时间确定等。而且由于文献内容涉及各个学科,文献原始格式、出版格式、呈现形式多种多样,每一个环节的界定都直接影响着检测结果,这就要求检测人员在检测过程中要充分用心,于不规律中探寻规律,严格采用统一标准对待各篇送检文献,对申报者负责。
1 相似性检测中的影响因素
1.1 英文文献格式
英文文献撰写者通常使LATEX等软件编辑,自动生成PDF格式,故申报者在申报系统中提交的的英文文献多为PDF格式。①PDF格式的英文原文在正常未加密的情况下,检测过程一般比较顺利,可以正常生成检测报告。但是有时PDF格式会出现加密的情况,一旦出现这种情况,原文文字信息无法复制,文章在相似性检测系统中无法导入,或者导入之后生成乱码报告等,这些情况一旦出现,需要立即将原文章转换格式。常用的格式转换软件有汉王PDF OCR、ABBYY FineReader等,格式转换之后,通常情况下检测过程会归于正常;②有时相似性检测系统后台比对的外文数据库会涉及版权问题,文章允许比对但不提供无缝下载链接,所以当原文无法在数据库下载时,有时会需要作者本人提供原文,这时可能会出现Word等非PDF格式的文章被提交上来,检测方法和过程与PDF格式的文章相同,但前提是作者本人提交的版本内容必须与发表、收录的内容一致,这需要人事处、科研处等相关部门严格审核。另外,从数据库下载的原文中,如果因排版等原因掺杂有其他文章内容,须转换为Word格式,剔除不相关内容之后重新上传检测;③某些学科领域如生化、数学、艺术等文章中,有时会出现大量统计图表、设计图、公式、分子结构示意图等,通常因格式转换软件技术限制而导致格式转换效果欠佳,从而相似性检测系统无法检测,而图表、公式本身传达一定的信息量又不宜删除,故需要采取其他方式进行相似性鉴定。
1.2 检测时间点界定
相似性检测的重要一环是检测时间点的界定,即比对截止时间点。规定按收稿日期、期刊发行日期、会议日期等酌情选择。原文如果是出版社正规单行本格式,一般会标注收稿日期。英文文献的收稿日期一般标注格式为Received Time、Accepted Time等;会议文献按照会议召开日期,可检索会议名称确定会议时间;期刊文献按照期刊发行日期,网络优先出版的文献按照网上出版日期,标注格式为Available online Time等。本着对申报者负责的精神,时间点尽量取前不取后,收稿日期和期刊发行日期如果同时检索到,选择收稿日期作为检测时间点。检测时间点的界定需要严格慎重,时间间隔会造成检测结果存在很大差异。例如,某篇文章系统认定的出版时间为2012年7月15日,总文字复制比为34%,超过了文字复制比须在30%以下的要求,但收稿日期为2011年11月4日,如果按该时间点检测,总文字复制比则为10.3%,符合要求。有的期刊发行日期不明确,则需要按照该刊出版周期、出版频率来确定每期的出版时间,从而确定检测时间点。例如,双月刊为每两个月出版发行一次,如无具体的出版日期,则规定6期的出版日期为前一年12月31日以及该年2月28日、4月30日、6月30日、8月31日、10月31日;季刊为每季度出版发行一次,如无具体的出版日期,则规定四期的出版日期为前一年12月31日以及该年3月31日、6月30日、9月30日;此外还有半月刊、旬刊、周刊、不定期出版等多种情况,如无具体出版日期,则选择各小周期的前一天或者按照出版频率均摊时间来确定。
2 外文期刊检索的方法及技巧
对于无收稿日期、非会议文献的期刊文献,需要借助数据库、网站等资源,确定该刊的出版周期、出版频率等,从而确定具体某期的出版日期。常用的数据库如EI Compendex、Springer等,在数据库收录文献的题录信息里可检索到英文期刊的完整刊名、标准刊号(ISSN)、数字对象标识符(DOI)、出版时间或年卷期号。利用刊名或刊号可检索期刊的出版周期或频率,常用的网站有中国报刊网、中科院国家科学图书馆、中国知网文献总库、中国图书进出口总公司期刊查询等。如利用http://periodical.cnpeak.com/periodical.aspx检索英文期刊《Insurance: Mathematics and Economics》,期数共6期,双月刊。对于非常规周期出版的期刊,如《Philosophy & Social Criticism》,期数共10期,通常按照一年的总天数均摊时间计算每期的出版时间。有些外刊每年出版的周期不同,如《International Journal of Database Theory and Application》,该刊2008-2013年每年出版的期数分别为1期、4期、4期、4期、4期、6期,遇到此类情况,须按照每年期数分别计算出版日期。此外,还可以利用数字对象标识符检索,如利用网站http://dx.doi.org/检索DOI为10.1007/s00339-013-8018-3的文献,可以确定出版时间为2014年3月。有些期刊的ISSN号分为印刷版和电子版两种,印刷版为pISSN,电子版为eISSN,两者内容一样。例如《Journal of Convergence Information Technology》,ISSN为1975-9321(Print),2233-9299(Online)。
3 会议文献的检索技巧
在英文文献相似性检测中,EI Compendex等收录会议文献的数据库均可用来检索会议文献信息。根据会议名称,可检索该会议的详细题录信息,确定会议日期。另外,还可以利用google等学术搜索引擎,输入会议名称或缩写,检索会议日期。EI收录文献可直接在题录信息中查看会议日期,如EITRT 2013,会议日期为2013年10月25日~10月27日;CCDC 2014,会议日期为2014年5月31日~6月2日。通常选取会议召开的前一天作为检测时间点。会议论文集的出版时间有时在会议召开的时间之前,有时在会议之后,按照“选前不选后”的原则,选择靠前的日期作为检测时间点。
4 外文著作相似性检测
外文著作相似性检测是针对书名、作者位次、ISBN、CIP查真,利用中国人民共和国新闻出版总署、国家图书馆等网站查询CIP数据及ISBN的真实性,同时核对作者位次。有时作者位次不是位,或者与其他人合著,则网站无法显示具体信息,须作者提供著作原件或扫描件予以鉴定。
5 文字复制比分析
相似性检测结果中,如果被检测文献与申报者本人的学位论文或者会议论文有相似片段,则剔除申报者本人学位论文和会议论文相似部分,不计算重合率。以某篇检测文献为例,如图1所示,该文献总文字复制比为50.3%,但是去除本人学位论文会议论文之后,文字复制比为3.9%,符合要求。
但是,因数据库收录时著录内容、著录人员等因素影响,某些文献著录信息缺失,导致系统无法自动对应到某位作者名下予以剔除,因此会导致文字复制比较高。解决方法,一是手动计算相似片段字数与原文字数的比例,从总文字复制比中减去;二是向数据商或更高权限账户提交申请,从数据库中直接剔除本人该篇学位论文或会议论文,重新检测。
6 结 语
外文文献因其原文格式、发表收录以及外刊出版等多种原因,表现出复杂性、多样性的特点,要求检测人员具备较高的专业素质和外语水平。在相似性检测过程中除了常规流程操作,更应具体情况具体分析,在公平、公正的前提下,采取灵活化、人性化的检测方法和技巧,保证检索信息无误、查全查准,检测结果真实、准确。

作者:王佳
来源:中国管理信息化 2015年13期

.—— END ——.