您的位置: turnitin查重官网> 教学 >> 初中教学 >> 初一英语教学 >城市建设领域英语语料库开发实践大专

城市建设领域英语语料库开发实践大专

收藏本文 2024-03-22 点赞:4300 浏览:10952 作者:网友投稿原创标记本站原创

摘要:目前以语料库为基础的实证性语言研究方法得到了广泛的认可,英语语料库已逐渐被应用到各个领域的英语教学研究中。如何建立有专业、语体和语篇特色的语料库以及如何对这些语料库进行深层次的开发与研究是面临的新课题。本文立足于城市建设领域专业英语语料库的建设实践,从理论建设、总体方案设计、语料库本体开发、语料库分析工具等几个主要建库要素进行阐述,详细地介绍该语料库的开发过程和应用价值,提供切实的经验和建议。
关键词:英语语料库;语言学;城市建设
1006-2831(2012)05-0156-5
1 理论建设

1.1语言学基础

语料库建设、语料库数据检索与处理已形成了一套独到的理论体系、技术手段和研究方法,“语料库语言学”也作为一个学科而出现。语料库语言学不属于语言自身某个侧面的研究,而是一种以语料库为基础的语言研究方法。大量的真实语言使用实例和统计学理论及方法是语料库语言学的支撑点。它包括两方面的内容:一是对自然语料进行加工标注;二是用已经标注好的语料进行语言研究和应用开发。语料库语言学的数据不同于以往研究中采用的“内省数据”和“诱导数据”,它使用“真实数据”对实际使用中的语言事实进行定量分析和定性的功能性解释,使研究更具全面性、科学性和准确性。

1.2国内外研究现状与项目创新点

语料库具有“大规模”和“真实性”的特点,是客观性的语言知识资源,是直接怎么写作于语言文字信息处理

源于:硕士论文www.udooo.com

等领域的基础工程。近几十年来,许多国家都相继建立了大规模的语料库。如:20世纪60年代至70年代世界上最先建立的BROWN语料库是代表当代美国英语的语料库;在英国以兰卡斯特大学为倡导的LOB语料库是代表当代英国英语用法的语料库;1975年建成的伦敦-朗德语料库LLC则是英语口语语料库,这三大语料库成为经典语料库,为现代语料库语言学奠定了坚实的基础。20世纪80年代,辛克莱教授(Sinclair)主持建成的柯林斯-伯明翰大学国际语料库COBUILD于2003年扩容到五亿词次,堪称当今最大的语料库。90年代建成的具有代表性的语料库为英国国家语料库BNC和国际英语语料库ICE等。在我国建成的英语语料库有:上海交通大学科技英语语料库JDEST、国际学习者英语语料库ICLE中国子语料库、中国学习者英语语料库CLEC、中国学习者英语口语语料库COLSEC、中国学生英语口笔语语料库SWECCL、中国大学生英汉汉英口笔译语料库PACCEL、英语专业学习者语料库CEM、中国英语语料库CEC等。
前期调研发现,国内外建成的语料库大多针对普通英语和学习者英语,和英语教学有着紧密的联系,而专门用途英语语料库却并不多见。在语料库这一强有力的语言学习研究工具在各个专业英语领域都应被积极利用的环境下,城市建设相关领域的英语语料库的建设和开发却是一片空白。如何建立这种有专业、语体和语篇特色的语料库以及如何对这些语料库进行深层次的开发与研究是面临的一个重大课题。目前我国很多院校开设了城市建设相关领域专业英语课程,但专业英语教学和研究工具却相对单一,教学效果不甚理想,师生们都苦于缺乏有效的工具。在大量建筑工程技术人员学习和应用城市建设英语的形势下,开发这一领域的特色语料库具有很大的创新性。

1.3开发城市建设领域专业英语语料库的意义

(1)能够积极促进外语学科建设,完善外语教学改革
语料库是英语语言学与语言教学研究方向的重点之一,其内容紧密结合了建设“城市文化”的要求。通过语料比较、统计和筛选等方法,可提供城市建设领域相关专业英语的应用信息和量化数据,并为制定适合专业英语教学大纲提供决策依据。
(2)能够为城市建设相关专业人员学习和研究语言提供崭新途径,实现《大学英语教学要求》对教学模式的有效改革
语料库可以提供大量可靠性高的参照数据和新鲜实例,使语言研究更具概括性和说服力。教师可以通过分析统计城市建设英语语料,加强对这一领域英语的语言、篇章、文体等特点的描述,以减少实际使用与课堂教学的差距。该语料库可以为教师提供创造空间,有利于教法改进,设计更富创造性的教学活动,开展基于语料库或语料库驱动的科学研究。通过对该语料库的使用,困扰语言学习的“真实材料”问题将得到有效解决,外语学习将更富交互性和人性化。写作科技论文时,学习者拥有第一手资料用于熟悉相关专业句型、科技词汇和文体格式,并可通过类联接等技术手段判断关键词搭配,以此来模仿造句等。
(3)能够丰富补充校园电子教育资源
通过相关技术手段,语料库可提供网络电子教育资源,师生可以得到大量的语料资源和在线帮助,学生的外语接触和语言输入将突破以往的限制。英语语料库是丰富的语言知识资源,其可扩展性和开放性的特点使有益的新鲜语料可以随时被补充到库内。学生通过语料学习对比找到英语差距,有助于树立正确的英语学习目标。
2 城市建设领域专业英语语料库的总体方案设计

2.1原则

城市建设专业领域英语语料库建设应基于一定的语言学标准,建立一套严格的语料抽样原则和相应的技术规范,并应强调抽样的随机性、各种语料间的平衡、与同类语料库的可比性、整体语料的代表性等。语料库以科学地反映城市建设领域的英语用语全貌为特色,以该领域英语语言信息处理、英语语言规范和标准的制定、英语语言的学术研究、专业特色英语教育和英语语言的社会应用为主要怎么写作目标,旨在满足具有城市建设相关专业特色的英语教研需求。

2.2类型

专用语料库,即采集城市建设领域的英语语料样本建成的语料库。
书面语语料库,即采集的语料均为文本形式。

2.3规模

库容初步设计为千万词次,基本可以满足城市建设领域相关专业英语教学及语言研究的需要,这样既便于操作,又可以积累经验,以利于语料库以后的扩容。
2.4结构结构分为语料库本体(即语料库电子文本)和语料库引擎(即语料库分析程序)两部分。

2.5代表性和平衡性

为了使在语料分析基础上得出的结论可靠,语料库必须具有代表性。代表性对于同类语料所组成的语料库(如城市建设领域专业英语语料库)并不造成多大问题,尽量通过兼顾取样过程中语料的多样性、比例和语料量的大小来解决。平衡性与时间分布领域分布等因素相关,它指选材有足够的时间跨度,语料抽样合理,分布均匀,体裁比例适当,能够比较科学地反映城市建设领域的英语用语全貌。

2.6技术规范

语料库开发遵循国内外信息处理领域通用的语料库技术路线和流程,重视为语言学教研怎么写作,采用机助人校的加工方式,并利用最新流行的开发语料库切分标注和文本分析等软件工具来提高加工精度,控制使用质量。涉及的相关技术概念包括多次序列、搭配和类联接、索引和索引行、正则表达式、词性赋码等。
3 城市建设领域专业英语语料库的本体开发

3.1语料采集

(1)语料来源
本语料库所收录的语料均取自“美国土木工程师协会ASCE”(http://www.ascelibrary.org)所发表的英文学术期刊论文。ASCE(TheAmerican Society of Civil Engineers)成立于1852年,是历史最久的国家专业工程师学会,其出版的期刊被SCI、EI收录,具有较高的用语规范性和学术权威性。
(2)语料库取样及分布
为了反映城市建设领域的英语书面用语全貌,本语料库根据城市建设领域的专业细分,收录了15种ASCE学术期刊所涉及的专业领域,包括建筑工程、桥梁工程、城建工程领域的计算机技术应用、建设施工管理、工程机械、公共基础设施、建筑施工相关法律与仲裁、工程管理、建筑工程材料、建筑物性能、管道工程、结构工程、交通工程、城市规划与开发、结构设计与施工等。为了保证语料具有代表性,本语料库尽量保证每一个专业分支的语料数量都在100篇以上。
为了充分反映科技文体的特点,本语料库收录了科技期刊论文的全文(包括论文标题、摘要、关键词、正文及附录等)作为语料,方便使用者根据需要进行查找。采集整个文本是很好的收集方法,这种方法不需要担心原始文本中各个段落之间的语言差异。语料库中的每个样本都是一个完整的文本,可以提供更广泛的语言研究,而且不必担心采样方案的合理性。
为了反映城市建设领域的学术热点及英语用语最新特点,本语料库所选的论文均为2006年以来发表的论文。此外,选材年限及密度的抽样是由学科的整体发展决定的。各个学科专业的发展

一般论文格式范文www.udooo.com

在不同的年代并不是齐头并进的,因此本语料库综合考虑语料文本的数量而设定了不同的时间跨度。
综合来看,本语料库的语料取样兼顾了学科领域、文体特点及时间跨度等因素,语料数量比例分配合理,能够如实地反映近年来城市建设领域专业英语的横向和纵向发展趋势。
(3)语料库容量
本语料库收录了2834篇学术期刊论文,总字符数达1900万字(针对生语料进行统计,包括字母、数字、标点符号等)。

3.2语料整理清洁

(1)文档重命名
最初从ASCE网站下载的期刊论文均为Adobe PDF文档格式,且都是以英文字母加数字的方式命名(如“QAE000018”),不能直接反映出论文的标题内容。为解决这一问题,项目组使用文档重命名软件“PaperRenamer0.82”对PDF文档进行重命名处理。“PaperRenamer0.62”软件可以自动识别并提取PDF文档的正文标题内容(即论文标题),然后批量替换PDF文档的文件名。如果论文标题过长(超过2行),“PaperRenamer0.62”软件将无法正确识别并自动替换文件名。由于科技论文的标题大都很长,因此使用软件只能对50%左右的论文进行自动更名,其余论文需要人工选取论文标题再重命名。将重命名的PDF文档按期刊种类分别建立文件夹保存,可以利用主流的PDF文档浏览器(如PDF-XChange Viewer或Adobe Reader)对PDF文档进行检索。
(2)文档格式转换
目前主流的语料库分析软件(如Wordith、AntConc等)只能对纯文本格式(Plain Text)的语料进行分析。因此,为了使用专业的语料库分析软件对语料进行深度挖掘,还需要将PDF格式的语料转换为纯文本格式(文件后缀为“.txt”)。项目组选择文档格式转换软件(Ailt.PDF.to.All.Document.Converter.v

5.4)将PDF文档批量转换为纯文本格式文档。

(3)文档清理
文档格式转换软件(Ailt.PDF.to.All.Document.Converter.v5.4)无法转换PDF文档中的图片、表格及公式等内容,这部分内容会在纯文本格式文档中对应生成空格、乱码等内容。另外,PDF文档保留了论文的排版格式,在进行文档格式转换时,会产生很多空格和回车,甚至会打乱上下文的顺序。此外,论文原文中的关键词、注释、页码、参考书目等部分属于论文正文的附属部分,对于语料库研究作用不大。这些原因导致文档中存在许多无效的字符,降低了文档的可读性,因此需要对纯文本格式文档的内容进行清洁整理。
为了提高文档清理的工作效率,项目组选用PowerGREP和“文本整理器软件”对文档进行批量处理。对于较为杂乱的文档,采用Microsoft Word软件进行单独清理。清理好的纯文本格式文档成为干净的生语料,然后按期刊种类分别建立文件夹保存,可以利用Wordith和AntConc等软件进行分析研究。
(4)词性赋码处理
为了对语料进行词性和句法结构等方面的深度研究,还需要对生文本语料进行词语切分和词性赋码标注。经过标注赋码的语料库数据分析更加系统精确,也便于对特殊数据信息的提取和处理。标注可从不同的角度进行,从语法的角度进行标注叫“语法标注”,主要是对词类(parts of speech,POS)标注。经过比选,项目组选用了比较成熟的CLAWS4词性赋码软件。CLAWS4软件是由英国兰卡斯特大学计算机语料库研究中心研制并开发的自动词性赋码软件,它可以根据概率的原则,用计算机来进行自动化处理,曾用于“英国国家语料库(BNC)”的词性赋码处理,是目前最权威的英语语料赋码软件之一,词性赋码准确率可高达96-97%。课题组利用ja平台下的单机版CLAWS4软件将生文本语料批量转化为词性赋码语料(Tagged Texts)。具体方法是:先根据生文本的编码格式(本语料库的生文本都是ASCIi编码格式)选择对应的编码格式,然后从CLAWS4软件的JClaws菜单中选择“Tag Text in File(s)-Horizontal Format”,再选择需要进行词性赋码标注的生文本。点击“打开”后,CLAWS4软件会自动对生文本进行词性标注,并生成后缀为“.cls”的同名词性赋码文本以区别于生文本。CLAWS4软件生成的后缀为“.cls”的文本仍然是纯文本格式,可以用记事本打开阅读,新建文件夹另外存放。
目前常用的语料库分析软件只能识别并分析后缀为“.txt”的文本,项目组使用“文件后缀批量修改器v1.0”将“.cls”后缀文件批量修改为“.txt”后缀文件。修改后的词性赋码文本就成为“词性赋码文本语料库(Tagged Texts)”的语料部分,可以用BFSU Colligator或PatCount等软件进行类联接和句法结构等方面的分析。
4 语料库引擎——分析工具
在数据提取阶段,既有工具的软件技术已经比较成熟,且能满足语料库的需要。根据研究问题的性质,可在同一任务中用到某一工具或几种工具的组合,因此不需自行开发工具。最基本的语料库工具如下:

4.1索引程序

城市建设领域专业英语语料库具有可索引性。索引是一种强有力的文本分析研究工具,在文本分析中的应用具有悠久的历史传统。项目组采用技术较为成熟的语料库索引软件AntConc作为语料库的索引程序,可为语言学研究和语言教学提供有力支持。AntConc是日本早稻田大学学者Laurence Anthony博士开发的语料库分析软件,适用于通用格式的语料库,尤其是无标注或只进行了词性标注或其他简单标注的语料库。用户可以从Laurence Anthony博士的主页(http://www.antlab.sci.waseda.ac.jp)下载该软件并免费使用。该软件的版本还在不断更新。
AntConc可实现基本功能,包括简单索引、索引定位、文件查看、词表生成、语篇统计、带语境关键词(KWIC)索引、排序、搭配词统计、词语型式统计、主题词提取、词丛统计、联想词统计及重组、词图统计、使用通配符辅助检索、基于文件的检索以及利用正则表达式进行复杂检索等。

4.2其他文本分析程序

目前通用的其他高效的特色文本分析软件如:搭配分析专用工具BFSU Collocator,北京外国语大学中国外语教育研究中心设计;类联接分析专用工具BFSU Colligator,北京外国语大学中国外语教育研究中心设计;文本检索工具PowerGREP,可用于语料库查询和语言特征提取;文本特征分析软件Patcount,北京外国语大学中国外语教育研究中心设计等。具体的用法可查看软件说明,这里就不再一一赘述了。
5 结语
建成的城市建设领域专业英语语料库具有广泛的理论和应用价值。它可提供怎么写作于外语教育教学的三大功能,即提供丰富的专业领域英语教学资源;开辟人机互动的探索型学习模式;培养师生的实证性研究能力。将该语料库运用到教学的方式可以是直接的,如对学习者讲授语料库语言学,教他们使用语料库,利用语料库进行教学等;也可以是间接的,如编写教材和语言测试等。语料库的开发只是一种基础建设,开发的目的是为了研究,因此本语料库只是初步的成果,今后使用

源于:大学生论文查重www.udooo.com

者可充分利用这一工具,从不同角度、不同层次对城市建设领域的英语用语进行深入的研究和分析,提出改进专业英语教学和提高教学质量的建议,从而促进英语教学。
建成的语料库也有一定的局限性,主要表现在语料的局限性和标注的局限性。由于人力和时间的限制,语料库所采集的语料在题材和库容量方面有一定的局限性。但任何语料库都会受语料源因素的制约,因此该语料库设计为开放式的,在今后可不断进行扩容弥补。此外,标注只涉及到语法标注,像句法标注以及树库的深加工有待研究的进一步开展和计算语言学工具的进一步研发。语料库不应是一次性的成品,而是需要不断完善和丰富的工具,其将来在规模、层次、标注等方面均可进一步扩充和完善。

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号