您的位置: turnitin查重官网> 图书馆 >> 图书史 >关于统计分析近年来我国跨语言信息检索统计分析

关于统计分析近年来我国跨语言信息检索统计分析

收藏本文 2024-04-11 点赞:19923 浏览:85051 作者:网友投稿原创标记本站原创

〔摘要〕以CNKI数字出版平台所收录的文献为依据,对近年来我国跨语言信息检索(CLIR:Cross Language Information Retrieval)的文献进行文献计量学统计,选取2001-2012年间研究成果作为数据样本,并从文献年代分布、文献被引情况、文献情报源分布、研究人员及机构分布、获得资助情况、关键词及论文主题分布进行统计分析,对2001-2012年关于跨语言信息检索的研究现状进行了梳理和总结,从而为进一步的研究和发展提供参考。
〔关键词〕跨语言信息检索;跨语言检索;多语言检索;多语言信息检索;统计分析
DOI:10.3969/j.issn.1008-082

1.2013.07.025

〔〕A〔文章编号〕1008-0821(2013)07-0112-06
Statistical Analysis on the Research of Cross-Language
Information Retrieval in China between 2001 and 2012Zhang Xuemei1,2Guo Shiming1
(1.Library,Harbin Normal University,Harbin 150080,China;
2.School of Information Management,Heilongjiang University,Harbin 150080,China)
〔Abstract〕Based on literature from 2001-2012 included in CNKI digital publishing platform,this paper made literature statistical analysis about the subject of Chinese cross-language information retrieval(CLIR)research through these aspects of age distribution,literature has been cited,intelligence source distribution,researchers and institutions distribution and financial support.The paper tries to sum up the study on cross-language information retrieval between 2001 and 2012,so as to provide reference for further research and development.
〔Key words〕cross-language information retrieval;cross-language retrieval;multilingual retrieval;multilingual information retrieval;statistical analysis
跨语言信息检索(Cross-Language Information Retrieval,简称CLIR),是指用户使用某种语言(一般为其母语或熟悉的第二语言,称为“源语言”(Source Language))检索另一种语言(即“目标语言”(Target Language))表达的文献资源的方法或技术,其实质是完成单语言信息查询与多语言信息(文档)表示之间的匹配。根据系统检索到的目标语言的种类,可将跨语言信息检索细分为双语信息检索(Bilingual Information Retrieval)和多语言信息检索(Multilingua

摘自:毕业论文前言www.udooo.com

l Information Retrieval);根据检索内容的不同,可将跨语言信息检索细分为特定领域的跨语言信息检索(Domain-specific Information Retrieval)和多媒体信息检索(Multimedia Information Retrieval)等。目前跨语言信息检索主要应用于搜索引擎、数字图书馆、专业领域数据库等方面。
据1996年ETHNOLOGUE目录记载:全世界语言数高达6 703种[3]。致使互联网世界形成了多语言性这一特色。自20世纪60年代末Salton开始英德和英法德跨语言检索研究起[4],国外关于跨语言信息检索的研究主要经历了萌芽、发展和大型商用阶段。
本文以清华大学《中国期刊网》的检索数据库作为统计分析源,对1990-2012年我国跨语言信息检索的研究成果进行统计和分析,统计结果发现1990-2000年间,没有相应的研究成果,因此本文选取2001-2012年的研究成果作为样本进行分析,力求真实客观地反映目前我国跨语言信息检索领域理论与实践的研究现状,以供参考和借鉴,促进其建设与发展。
1研究方法

1.1检索条件

时间范围:发表时间between(2001-01-01,2012-11-30)。
检索字段:关键词。
检索提问式:(关键词=中英文扩展(跨语言信息检索))或者(关键词=中英文扩展(CLIR))或者(关键词=中英文扩展(跨语言检索))或者(关键词=中英文扩展(多语言检索))或者(关键词=中英文扩展(多语言信息检索))。
匹配方式:精确匹配。

1.2检索方式

跨库检索。

1.3检索数据库

中国学术期刊网络出版总库,中国博士学位论文全文数据库,中国优秀硕士学位论文全文数据库,中国重要会议论文全文数据库。 近年来我国跨语言信息检索研究的统计分析

1.4检出结果

145条记录,经过仔细甄别排除不相关记录和去重(即去除“一稿多登”和重复录入的记录),剩余144条记录,见表1。
表1检索结果统计
数据库检索结果记录数(条)中国学术期刊网络出版总库115中国重要会议论文全文数据库0中国优秀硕士学位论文全文数据库29中国博士学位论文全文数据库0合计144

1.5分析工具

利用Excel软件进行数据的分析处理。
2研究结果统计分析
2.1对跨语言信息检索相关文献年代分布的统计分析某研究领域文献的年代分布分析结果能在一定程度上反映该研究领域的研究发展速度和水平规模,还能更加直观地观察到文献的数量变化情况[5]。跨语言信息检索相关论文的年代分布情况见表2,为了便于观察该领域研究论文的年代分布情况,将表2制成了图1。
图1显示,我国从2001年开始陆续针对跨语言信息检索展开研究,但总的发文量较小;2004年之后跨语言信息检索研究领域论文开始大量涌现(通过阅读发现,2002年美国计算机协会信息检索特殊兴趣小组会议(Association for Computing Machinery Special Interest Group on Information Retrieval,简称ACMSIGIR)在芬兰举行了第25次会议。该小组致力于研究信息的存储、检索和传播,跨语言检索、多语言检索和机器翻译等均是其感兴趣的领域。此后的2003年,国外跨语言信息检索研究出现了一个小。我国跨语言信息检索研究“跟风”,在接下来的2004年出现了小。因此,可以说该会议的召开对跨语言信息检索文献量的增长有一定的影响[6]。2006年该领域论文发文量再度出现小;2007年有所回落,可能是2006年的小高峰后形成了一定的疲软;2008-2012年(时间可以延续至今)论文数量增幅相对平缓。总之,2001-2012年我国跨语言信息检索方面的论文发文量呈逐年递增之势,这说明我国跨语言信息检索研究越来越普遍。
通过以上的统计分析,不难发现,跨语言信息检索是一个起步较晚但发展很快的研究领域。进入20世纪90年代以后,随着计算机技术和网络技术的迅猛发展,跨语言信息检索的研究也取得了快速进展,初步形成了一个完整的研究体系。尤其是近年来,保持着平稳的研究态势,并且新的研究成果不断涌现,体现了该领域良好的发展势头。
2.2对跨语言信息检索相关文献被引情况的统计分析为了分析跨语言信息检索文献的老化情况,计算该研究领域文献的半衰期,本文对该研究领域文献的被引情况进行了统计,见表3。为了更加直观地展示被引率的变化情况,将表3绘制成图2。
根据表3和图2,结合图1,可以得出以下结论:①从被引率情况来看,自2004年之后,跨语言信息检索领域的研究论文的年被引率逐年下降,显然不是因为文献比较新而越来越少地被引用,那么则表明论文的质量出现了下降的趋势(2012年发表的论文由于发表时间比较近,这一年发表的论文的年被引率可能有滞后,所以该年发表的论文被引率低不能推断为质量的问题)。②从均篇被引次数情况来看, 2001-2006年间发表的论文,尤其是在2001年和2005年出现了文献被引,说明该时间段内发表的关于跨语言信息检索的论文质量很高(论文的被引用次数越多,说明该论文的质量越高,含原始创新的成分越多)。③从发文量与文献被引率之间的关系来看,发文量并不一定与文献被引率呈正相关关系:2001-2005年跨语言信息检索领域的基础理论建立阶段,发文量与文献的被引率基本呈正相关;2005年该领域基础理论研究基本建立之后,随即进入了需要理论创新的时期,虽然该领域的论文发文量仍很高并在整体上仍呈增长的趋势,但文献被引率趋于平稳并渐呈逐年下降的趋势,文献利用率随之下降。
文献数量的增长并不意味着文献质量的提高,以上分析显示的文献数量增长而文献的被引率即被利用率降低的数据就是佐证。也即是说,在学科发展的过程当中,关注对一个领域的研究是重点,同时更重要的是要注重理论创新,提升发文的质量。
2.3对刊载有关跨语言信息检索文献的情报源分布统计分析分析跨语言信息检索研究论文的分布情况,不仅可以确定该领域的核心期刊,为文献收集和管理提供依据,还可以指导读者进行重点阅读[7]。因此本文抽取刊载跨语言信息检索相关论文5篇(含5篇)以上的情报源分布情况进行统计分析,以帮助分析确定跨语言信息检索领域的核心情报源。
从统计结果可以看出,载文在5篇(含5篇)以上的8种情报源共载文58篇,占了检索出的总文献量的40.28%,可以说是跨语言信息检索研究领域论文的重要核心情报源,它们分别是:《中文信息学报》9篇、占6.25%;《现代图书情报技术》9篇、占6.25%;《情报科学》9篇、占6.25%;《图书情报工作》8篇、占5.56%;《大连理工大学》(硕士学位论文)7篇、占4.86%;《情报杂志》6篇、占4.17%;《现代情报》5篇、占3.47%;《计算机工程》5篇、占3.47%。其中《中文信息学报》、《现代图书情报技术》、《情报科学》3种期刊是跨语言信息检索研究领域的核心情报源,共载文27篇,占文献总量的18.75%,是该领域理论与实践研究的主阵地,并且这8种期刊情报源大部分是图书情报学、计算机科学领域的核心期刊,这在一定程度上表明了图书情报学、计算机科学领域核心期刊在跨语言信息检索研究中的重要作用。

2.4跨语言信息检索研究人员及机构分布

对这些检出文献的作者单位进行统计,得出作者所在单位发表跨语言信息检索领域论文4篇(含4篇)以上的机构分布情况,见表4。

2.5跨语言信息检索获得资助情况统计

研究一个研究领域所获资助情况,有助于该领域的研究机构和研究人员了解国家或是各级部门对于该领域的重视力度,有助于他们开展相关的研究。为了对2000-2012年跨语言信息检索科研项目基金申报情况和跨语言信息检索的研究获得资助情况有一个大致了解,笔者对该领域所获资助情况和部分年代分布进行了统计,见表6。 表6结果显示,跨语言信息检索研究领域项目获得过多种资助,有国家层次的,如国家自然科学基金、国家高技术研究发展计划(863计划)、国家社会科学基金、国家科技支撑计划、国家重点基础研究发展计划、全国教育科学规划;有省部级层次的,如江西省科技攻关计划、黑龙江省自然科学基金、福建省自然科学基金、湖北省教委科研基金、内蒙古自然科学基金、北京市科技新星计划、安徽省自然科学基金、天津市高等学校科技发展基金、山西省自然科学基金、山西省归国留学人员科研基金、江西省自然科学基金、上海市科技攻关计划;还有其他层次的,如高等学校博士学科点专项科研基金。
从跨语言信息检索相关论文所获资助年代分布可知,2002年获资助项目数为4个、2003年4个、2004年6个、2005年2个、2006年9个、2007年2个、2008年22个、2009年16个、2010年13个,从2002年开始,国家或各省部对于跨语言信息检索研究领域的资助没有间断,并表现出越来越重视的态度,至2012年11月30日共计78个跨语言信息检索研究项目获得国家或省部级资助,占所检出总记录数的54.17%(排除同时获得多层次资助的项目最后得51个项目,也占检出总记录数的35.42%)。从发表文章到申请获得国家社会科学基金项目和各省部级基金项目、其他各项计划助,跨语言信息检索的研究已经从理论探讨向实践探索跨越了一大步。
2.6对跨语言信息检索关键词及论文主题分布统计分析对文献主题进行分析有助于我们了解该研究领域的基本特点及重点内容,掌握研究发展的整体趋势和规律;有利于弄清我国跨语言信息检索研究的发展现状和水平,认识现有的优势和不足,明确今后的研究重点和发展方向。
检出文献以跨语言信息检索作为关键词出现94次,跨语言检索作为关键词出现15次,CLIR作为关键词出现4次,多语言信息检索出现4次。在144篇文献中与跨语言信息检索同时出现作为关键词的词语中,我们统计了出现频次5次以上的关键词,见表7。表7与跨语言信息检索同时出现的关键词
关键词出现频次关键词出现频次信息检索17机器翻译8查询翻译12语料库6本体11中文信息处理5搜索引擎10数字图书馆5查询扩展10自然语言处理5
表7的结果显示,我国跨语言信息检索的研究主要集中在图书情报与数字图书馆领域,以信息检索和查询翻译为主要的研究内容,许多计算机领域的研究人员还未涉足这个领域。因此对于国内来说,这是一个比较新的领域。
跨语言信息检索研究处于信息检索(Information Retrieval,简称IR)、词义消歧(Word Sense Disambiguation,简称WSD)、未登录词翻译(Out Of Vocabulary,简称OOV)研究的交集领域[9]。
综合检出的跨语言信息检索领域的研究文献,将跨语言信息检索分为基础理论研究、翻译方法与技术、词义消歧、语料库、词典、其他关键技术、系统开发及具体应用、测试集、跨语言信息检索可视化这几个主题。见表8。
3结语
近年来在跨语言信息检索领域,无论是跨

摘自:毕业论文范例www.udooo.com

语言检索的实现方法,还是大规模测试集的构建方面,都取得了长足的进步。跨语言信息检索涉及的学科门类广,综合性强,是一个富有挑战性的研究领域。目前国外对跨语言信息检索的研究方兴未艾,但在国内这方面的研究相对薄弱,检索准确率还比较低。但是我们有理由相信,在互联网的发展和经济全球化的趋势下,这一领域将获得更多的关注和更长足的发展。跨语言信息检索正在朝着多样化的方向发展,研究的领域在进一步拓展。对翻译技术、词义消歧、测试集等热点问题的研究还将持续,这代表了一个技术和评价上的逐步发展。同时还有一些问题有待进一步研究,如专有名词识别、音译研究、跨语言信息检索系统的检索结果处理等,将成为新的研究方向。
还应该注意到,跨语言信息检索中应用到一定的图书情报理论和技术,如中文的分词技术、词频技术、索引技术等。图书情报的相关业务工作也是和跨语言信息检索技术紧密相连的,,如图书情报部门的参考咨询怎么写作、检索怎么写作等。在当今网络环境下,跨语言的信息检索环境为我们提供机遇,也给了我们挑战。一方面,我们可以更迅速地获取信息;另一方面,我们也面临准确获取信息的语言障碍。只有对跨语言信息检索问题投入更多的关注,才能够在网络信息环境下更好地发挥图书情报部门的导航作用。
参考文献
刘伟成,孙吉红.跨语言信息检索进展研究[J].中国图书馆学报,2008,34(173):88-92.
任成梅.跨语言信息检索的发展与展望[J].图书馆学研究,2006,(4):79-82.
[3]Grimes,B.F.Ethnologue Language Name Index[EB].http:∥.cn/HtmlArt/Event520s

1.htm,2012-09-03.

[18]新浪博客.陕西省安监局长杨达才“傻笑门”和“名表门”事件舆情分析报告[EB/OL].http:∥blog.sina.com.cn/s/blog6f67f6e0010170ua.html,2012-09-05.
(本文责任编辑:王涓)RFID技术在我国图书馆的应用知识图谱
收稿日期:2013-04-03
基金项目:本文系后勤工程学院青年基金项目“RFID技术在图书馆的应用及其效果评价研究”(YQ12-43001)成果之一。
作者简介:郝俊勤(1957-),女,研究馆员,研究方向:信息检索与利用,发表论文30余篇,主编参编论著5部。

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号