您的位置: turnitin查重官网> 汉语言文学 >> 词汇学 >简析管窥国际计算机辅助词典编纂系统管窥

简析管窥国际计算机辅助词典编纂系统管窥

收藏本文 2024-03-07 点赞:4293 浏览:9792 作者:网友投稿原创标记本站原创

摘要 计算机技术在词典编纂中的应用把编者从繁杂的语料搜集和提取,以及文字卡片堆中解脱出来。集语料处理、词典编纂和编辑出版为一体的计算机辅助编写工具在西方出版界已得到普遍应用,而在国内使用的却还不多。文章从系统结构和功能特点、界面结构及功能特点、编辑功能特点,以及存在的问题和建议等几个方面系统地介绍国际上几款较有影响的词典辅助编纂系统,以作他山之石,为国内辞书现代化的创新提供参考和借鉴。
关键词 计算机辅助词典编纂词典编写系统词典编辑出版词典编辑界面
一、引言
计算机具有文字容量大、处理速度快和检索方便等技术优势,国内外早已把它当作词典编纂不可或缺的工具。词典编纂平台或计算机辅助词典编纂系统在国际上叫作“Dictionary Writing System”(词典编写系统,简称DWS),有时也叫“Dictionary Production/Publishing System”(词典生成/出版系统,简称DPS)。它是专门用于词典编纂的计算机软件——编辑器,设置有词典语料库以及语料库导入和词典数据导出接口,可以实现词典语料、词典编纂、词典编辑、数据存储和成果输出等一条龙怎么写作功能。
在国内,20世纪90年代就开始了词典编纂平台的研究和开发,有关该问题的研究论文和开发成果也不少,比较有代表性的有:南京大学双语词典研究中心开发的“基于语料库的双语词典编纂系统——CONULEXID”、广东外语外贸大学词典学研究中心开发的“基于语料库的WEB词典编纂&自动生成系统”、外语教学与研究出版社与北京大学合作开发的“基于语料库的双语词典编纂平台”,以及北京大学的“词典编纂的计算机辅助开发与管理系统”、教育部语言文字应用研究所的“基于语料库的数字化辞书编纂平台”,商务印书馆的“辞书编辑编纂系统”。这些系统大多以大规模语料库为基础,利用语言信息处理计算机技术等,研究词典信息的获取、微观数据项的标注和生成、数据结构关系和检测、数据的获取和词典的生成等,以突破传统的辞书编纂概念,建立一种新型的辞书编纂模式。商务印书馆还进一步探讨数字辞书出版和百种精品工具书数据库,实现了词典间的互文或整合,形成了以词条为单元的词汇知识系统。
此外,还有其他不少单位正在尝试开发词典编纂平台,但大多是科研机构的一种科研尝试或为了某一词典项目而开发的专用工具,只在内部使用,至今还没有一家能投入商业运营。而在西方,由于语料库的建设和使用比较早,一些词典出版机构从20世纪七八十年代就有了词典编纂、编辑的专用平台,如牛津、朗文、柯林斯系列词典都是在专用平台上编纂和编辑的。同时,还有一些电子出版机构或软件公司开发了一些商业编纂平台,现在已经广泛应用于词典编纂领域。比较有代表性的有:法国IDM的DPS、俄罗斯的ABBYYLino Content、南非的TshwaneLex、SIL国际的Lexique Pro和法日合作的彩蝶Papillion等。下面就对其中几个做一简要介绍。

二、法国IDM的词典生成系统DPS

1.DPS系统概述

IDM词典生成系统(Dictionary Production System,简称DPS)是法国多媒体传播工程公司(Ingénierie Diffusion Multimédia,简称IDM)开发的。DPS可以使各类参编人员在主编的指令下协同一致、有条不紊地进行词典的编纂、信息检

摘自:毕业论文格式字体www.udooo.com

索和审校工作。
IDM公司从1999年开始,先后与朗文和牛津出版机构合作,开始了词典生成系统的研发,完成了词典标注文本从SGML向XML的转换,大大提高了词典编纂和出版的工作效率。该公司现有五款与辞书有关的产品,分布在500多家用户中,主要涉及词典编纂和词典的出版与传播(网络形式与光盘形式),其中包括:“Dictionary Authoring XML Editor/XML词典文本编辑器”和“extensible Dictionary Configuration Chain/词典文本格式转换链接器”等,构成了系统的词典编纂、编辑和出版工具。

2.DPS系统的结构和功能特点

该系统采用模块化设计,由“用户编辑模块(Authoring XML Editor)”、“搜索模块(Search Engine)”、“工作分配和流程管理模块(Work Allocation and Workflow Manager,简称工作流模块)”和“校对模块(Proofing Tool)”等组成了一个系统的词典工具框架。每个模块具有特定的功能,又能相互补充和配合,可大大提高词典编纂的工作效率。可见,该系统具有网络化、协作性、可索性和可控性,因为它有强大的搜索引擎和明确的工作流方式,强调通过“数据库”来实现成员间的协作编纂。从词典编纂的角度讲,它具有多语种、多功能的特点,可用于单语词典、双语词典、义类词典(thesaurus)、引文词典或百科词典等的编纂。系统全面支持Unieode编码、XML格式和多种文档类型定义(DTD)格式,可以方便词典信息的导入、导出和传播。目前,该系统在世界上拥有500多个客户,并被朗文等专业词典出版公司所采用(McNamara 2003)。
用户编辑模块可进行双屏双文档同步显示、XML元素属性的安全和快速修改、自动保持元素问相互参照的更新与安全保障、段落的自动编号和文本块的拖放式移动、批注和附加标签、XML模板的自定义等。
搜索模块可以进行简洁高效的语言查询、多个词典数据库的同步搜索、XML格式的输出;另外,它还支持多语种检索、模糊查询,能做到XML与关系型数据库的完美整合。
工作流模块是由进程(process)、步骤(step)和任务(task)三个方面构成的工作流,能够进行任务的分配控制、任务的进展监测、任务文档的宏观管理、日程事务的安排等。
校对模块能够帮助编纂人员从“用户视角”进行阅读和理解,包括三个阶段:编纂阶段(composing)、关键审读阶段(critical reading)和付印前审读阶段(pass for press validation),能够生成PDF文档,并与Adobe公司的InDesign排版软件进行无缝衔接。

源于:论文提纲范文www.udooo.com

1)基于XML技术,采用DTD格式定义,容许用户设定词典编纂结构,能保证词典文本结构的可调性和一致性;支持多语种编纂和多部词典同时管理。
2)实行工作流管理模式,能保障存储数据的安全性,并能跟踪词条的版本变化情况,如哪一个人编哪些词典或词条,词典编纂的进度和质量如何等,还可以跟踪和监控词条的相互参照关系。
3)词条编辑功能可使编辑人员在校对词典稿或修订词典时,根据需要利用拖动的方法直接调整词条内的义项次序。
4)有词条编纂工作的历史记录,主编或编辑人员能查看文本的修改、补充、删除的内容;如果有必要还可以进行数据还原。
5)有词条信息过滤功能,可利用日志——过滤工具和一些必要参数,如语词的拼写、意义、标签和处理状态等,找出特定的内容,并对它们进行处理或分配给其他编写人员处理。
6)能对词典数据,包括词目词、例证、复合词、习语、同义词、反义词、参见、标签、有声句子、有声文件等数据,进行多角度、多层面的统计。
系统既可以用来编纂全新的词典,也可以从多部现有词典中提取所需信息,然后再按新的设计方案补充新的内容,从而合并成一部新的词典。旧信息的提取是通过一个精密搜索和过滤引擎实现的,用户若想编一部经济学词典,就可以根据文本类型来提取现有词典的经济类词汇或义项,然后加入到新编的词典中;当然,也可以把多部专科词典合并成综合科技词典。(提取界面见图2)
图2左边窗口是新编词典的内容,右边窗口是几部旧词典,通过选择功能可以把A组中的营销(词典)和政治(词典)、B组中的法律(词典)移入左边的窗口;然后,按下创建(create)按钮,便把相关信息提取出来,合并到新词典中去。

3.泰比系统的界面结构及功能特点

泰比系统的界面与IDM公司的编辑模块有些类似,也分为词目总览区、词条预览区、XML词条树形结构编辑区和标注编辑区(见图3)。所不同的是,右下角的“特殊符号插入面板”,这是一个很贴心的人性化设计。泰比系统的四个工作区也有水平滚动条和垂直滚动条,可以进行各个区的宽度和高度的手工调节;这样,编者在面对大量信息项时能根据需要进行临时性界面调节。
在界面窗口的上部是主菜单和一列工具按钮。菜单从左至右是:文件、词条、编辑、词典组、工具、用户管理、选择项、帮助。可以看出:a)该系统设置了更多的菜单和工具按钮,表明其功能更多、更细;b)工具按钮不仅有文字,还有图形按钮,这体现了人性化和用户友好的一面;c)词典组(Dictionary Group)的设置表明该软件确实能进行“多部词典的同时编纂”和管理;d)标题栏上依稀可见的“server”字样和工具栏上的“Assign to”(带有头像图示),表明该软件是“具有高权限的控制端”或者“已经登录为高权限的客户端”,并且在高权限的情况下可以进行“词条分配”之类的“群组操作”,体现了分布式编纂的工作方式,这与产品说明中的“可以进行用户组的创建与协调”是一致的。

4.泰比系统的编辑功能特点

词目总览区显示出词典的总词表及其编辑状态,点击其中任何一个词项便可激活编辑功能,并查看其信息内容;词条预览区显示当前词条在词典中的版面格式,对词条内容的增删或修改都会在这里得到反映;词条树形结构编辑区显示词目词及其主义项和次义项的相对位置,如果有必要,可以用鼠标拖曳的方法调整义项次序;标注编辑区是主要的文字编辑平台,可以在这里进行词条内容的编写,义项、例证和同义词等的增减,参见其他词条,用专用符号注音等。
在已经加载词条的情况下,编者可以进行以下的文字操作:a)在词目总览区进行词目的选择和跳转;b)在跳转到相应的词目之后,就能看到“词条预览区”和“树形结构区域”已经同时发生了变化;c)如果需要对某一词条的某个微观结构项进行编辑或

源于:论文格式标准www.udooo.com

具体修改,则直接用鼠标单击树形结构区的相应节点;d)在节点被激活并处于等待编辑状态之后,编者便可在标注编辑区输入或修改词条信息了;同时,如果编者希望看到更加详细的XML的结构信息代码的话,则可以用鼠标点击“XML节点编辑区”,在这里编辑相关信息即可。一般来说,由于泰比的结构与IDM编辑器类似,它应该也有丰富的右键功能,如对树形结构节点的合并、新增、删除、对调、刷新等。同一词条的微观结构中的各种信息项,可以用鼠标进行拖动来实现相对位置的调整,十分方便。(参见图3中的树形结构编辑区)
此外,怎么写作器端也具有类似“考勤系统”的功能,即记录各个编纂者的系统登录时间与注册时间,且形成历史记录。词条编纂、编辑版本的历史也有“记录”,便于出现问题时进行必要的回溯追踪。

5.存在的问题及建议

目前,该公司主页上的产品介绍已不再包括这款软件,我们怀疑是该公司放弃了词典编纂系统的商业开发,因为ABBYY公司的产品线很广,员工的数量有千余人,其ABBYYLino系列电子词典和OCR识别软件都十分畅销,导致了“词典编纂软件”的开发力量不断向“电子词典”的开发转移。希望他们能重视词典编纂平台的改进,开发出有特色的词典编纂系统。

四、南非TshwaneLex词典编纂系统

1.TLex系统的研制背景

TsbwaneLex(简称TLex)是由南非TshwaneDJe公司研制的一款基于XML的词典编纂系统。该公司专门从事语言技术研究和开发,包括翻译记忆软件、语料库及索引软件、数据库编辑器、词典编写系统、词典出版系统、数据转换和术语管理软件等。特别是其词典编纂与词典出版系统,有许多替代人工操作的专业性能,能缩短词典编纂时间、节省费用、提高辞书质量。主要性能包括:内置语料查询系统、实时预览、用户设置、智能互参、自动跟踪升级、自动词目逆序排列、自动排序统计、导入Word文档或排版系统、多用户支撑管理等。该软件似乎有成为国际专业词典编纂行业标准的可能,它几乎能支持世界上大多数语言,已经与牛津大学出版社、朗文公司、麦克米伦公司、培生公司、西班牙皇家医学院、加拿大司法部等众多出版机构和政府部门建立起了业务关系,编纂出各种类型的词典。

源于:标准论文格式范文www.udooo.com

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号