您的位置: turnitin查重官网> 教学 >> 高中教学 >> 高中语文教学 >基于XML《古代汉语》教学信息标注

基于XML《古代汉语》教学信息标注

收藏本文 2024-01-27 点赞:28755 浏览:132212 作者:网友投稿原创标记本站原创

摘要:利用XML标注技术对《古代汉语》教材中所含文选进行理论知识信息标注,既实现了文选与理论知识的有效联接,又满足了知识更新与容量扩充的需求。XML标注技术的使用,使得《古代汉语》教学体系的结构更加清晰,内容更有延展性,可操作性也更强。
关键词:XML古代汉语教学

一、问题的提出

我国《古代汉语》课程长期以来形成了文选、通论和练习三结合的教学体系。文选提供语言材料、通论提供语言文字知识、练习检测学习的效果。在教材的编写中,编者一般把一组文选和相关专题的通论组织在一起,大致体现了理论与实践的结合。但在实际教学中,通论的教学和文选的教学往往又难以相互参照,教师或者先讲文选、后讲通论;或者先讲通论、后讲文选。无论是那种顺序,都难免会出现这样的窘境:文选中涉及的知识点,通论还没有讲到;通论中使用到的语言材料,文选中没有涉及。另外,文选和通论的结合在很大程度上依赖于教师,高水平的教师在讲文选时,能够准确捕捉相应的语言信息和法则;在讲通论时,又能够提供足够丰富的语料。但低水平或者责任心不强的教师则很难做到这种程度。这样一来,教材的局限和教师的局限使得《古代汉语》课程既难以实现教学系统化,更难以实现优质教学普遍化。
随着计算机技术的产生和发展,文选和通论难以有机结合的教学两难局面有了扭转的希望。20世纪90年代,周晓文、李国英针对上述情况,研发了“古代汉语计算机教学辅助系统软件”(P64-67)。但限于当时计算机技术发展的水平,该教学软件重点处理的是语料与知识之间的关联性。比如,阅读《管晏列传》中的句段“鲍叔既进管仲,以身下之”,读者会感到句意不明,在数据库关联技术的支持下,读者可以通过鼠标或键盘操作查看到其想了解到的句子翻译、字词解释等信息。但我们知道,不同文选、不同语段中,可能存在相同的知识信息。学生需要把具有相同知识信息的不同语段关联起来,才能融会贯通,举一反三。所以,我们还需要处理相同知识点的提取和不同知识点的关联问题。另外,不同教材选取的文选有同有异,各自的结构自成体系,这就要求我们建立的数据库是开放的、可扩展的。如果使用关系数据库来解决上述问题,我们将建立为数众多的数据库表来关联这些文选,届时程序的编写和知识的提取工作将非常繁重。为此,我们需要引入一种可以标注文本内容、表达其语义信息、存储结构化数据的标注技术。XML就是我们需要的技术。

二、可扩展标记语言—XML

XML(Extensible Markup Language的缩写),意为可扩展标记语言。它是国际互联网联盟(W3C)开发的用于网络环境下数据交换、数据管理和网页设计的新技术。XML1.0规范于1998年发布,2000年发布的第二版(仍为1.0版)是最近的推荐标准。虽然XML和HTML都是用于网络环境的技术,但XML标准摒弃了HTML用固定标签集的缺陷,而可以为我们分析的元素创建所需要的任何标签。概括起来,XML具有以下显著优点:内容与显示分离,清晰易读;方便共享和传播;扩展性强,易于再加工;支持大字库;检索迅速,容易开发;转换方便;网络功能强大(P51)。
XML最显著的特点是,它具有很好的伸缩性和灵活性,研究者可以根据实际需要,创建自己所需要的任何标识,将文档分成若干个元素,在需要的地方加上相应的标识。被加注XML标记的文档,就成为XML文档。一个XML文档就是一个文档元素,或称为根元素。这个文档元素又被切分为不同等级的元素,每个元素用一对起始标签与结束标签加以标识。元素下可以嵌套若干个有序的子元素,子元素同样可以被加上标识。一个XML文档被切分的元素的数量和层级由研究者根据自己的需要来确定。这样整个文档的结构就以一种“树”状的形态呈现出来。
XML用来描述信息结构的模式被称为Schema。XML Schema确定文档的合法模式,在这个模式下,文档的元素以及属性,子元素的数量、顺序以及属性,数据的类型与默认值等要件均被定义。只有符合定义的文档才能通过有效验证。

三、《古代汉语》文选的XML标注和处理

1.电子文本的生产

目前各高校使用的《古代汉语》教材种类很多,根据教学的实际,我们以王力《古代汉语》教材为底本制作电子文本,具体版本为1999年5月第3版。书中文选所据版本,与王力《古代汉语》一致。在遇到较难录入的繁难生僻字时,我们主要使用北京逍遥笔工作站开发的“逍遥笔手写输入法”以及华中科技大学尉迟治平教授主持开发的“中文超大字符集输入板”。

2.《古代汉语》文选的XML建模

在分析了王力《古代汉语》文选部分的结构之后,我们将整个文选部分命名为“文选库”,作为根元素。在“文选库”下,包含若干“文章集”子元素,如《左传》就是一个“文选集”,内容包括若干篇被选的“文章”。一篇“文章”就是《古代汉语》具体所选的篇目,如《郑伯克段于鄢》。“文章”下包括“题属”和“正文”两部分。“题属”包括“题目”、“出处”、“作者”三个子元素。“正文”之下切分为若干个“段落”。“段落”又切分为若干个“大句子”。“大句子”被切分为若干个“分句”。“分句”被切分为若干个“字词”。其模型如下图所示:
我们采用汉语拼音作为标记。如“文选库”,我们使用“wenxuanku”标记;“文章”,使用“wenzhang”标记。其它类推。
分析好文档的结构并设计好相应的标记后,我们就可以建立数

摘自:毕业论文目录www.udooo.com

据模型了。DTD(Document Type Definition)和XML Schema两种技术均可用于描述XML文档的结构和内容模式。与DTD相比,XML Schema是内容更加开放的模型,可扩展,支持丰富的数据类型,功能也更加强大。Schema本身也是一个XML文件,符合XML语法。我们既可以使用XML Schema来验证内容的合法性,也可以将其作为模式架构添加到文本编辑器中,用来自动标注文本。使用XML Schema建模会形成一个扩展名为xsd的文件。

源于:论文提纲格式www.udooo.com

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号