基于XML《古代汉语》教学信息标注-turnitin论文查重

摘要：利用XML标注技术对《古代汉语》教材中所含文选进行理论知识信息标注，既实现了文选与理论知识的有效联接，又满足了知识更新与容量扩充的需求。XML标注技术的使用，使得《古代汉语》教学体系的结构更加清晰，内容更有延展性，可操作性也更强。
关键词：XML古代汉语教学

一、问题的提出

我国《古代汉语》课程长期以来形成了文选、通论和练习三结合的教学体系。文选提供语言材料、通论提供语言文字知识、练习检测学习的效果。在教材的编写中，编者一般把一组文选和相关专题的通论组织在一起，大致体现了理论与实践的结合。但在实际教学中，通论的教学和文选的教学往往又难以相互参照，教师或者先讲文选、后讲通论；或者先讲通论、后讲文选。无论是那种顺序，都难免会出现这样的窘境：文选中涉及的知识点，通论还没有讲到；通论中使用到的语言材料，文选中没有涉及。另外，文选和通论的结合在很大程度上依赖于教师，高水平的教师在讲文选时，能够准确捕捉相应的语言信息和法则；在讲通论时，又能够提供足够丰富的语料。但低水平或者责任心不强的教师则很难做到这种程度。这样一来，教材的局限和教师的局限使得《古代汉语》课程既难以实现教学系统化，更难以实现优质教学普遍化。
随着计算机技术的产生和发展，文选和通论难以有机结合的教学两难局面有了扭转的希望。20世纪90年代，周晓文、李国英针对上述情况，研发了“古代汉语计算机教学辅助系统软件”（P64-67）。但限于当时计算机技术发展的水平，该教学软件重点处理的是语料与知识之间的关联性。比如，阅读《管晏列传》中的句段“鲍叔既进管仲，以身下之”，读者会感到句意不明，在数据库关联技术的支持下，读者可以通过鼠标或键盘操作查看到其想了解到的句子翻译、字词解释等信息。但我们知道，不同文选、不同语段中，可能存在相同的知识信息。学生需要把具有相同知识信息的不同语段关联起来，才能融会贯通，举一反三。所以，我们还需要处理相同知识点的提取和不同知识点的关联问题。另外，不同教材选取的文选有同有异，各自的结构自成体系，这就要求我们建立的数据库是开放的、可扩展的。如果使用关系数据库来解决上述问题，我们将建立为数众多的数据库表来关联这些文选，届时程序的编写和知识的提取工作将非常繁重。为此，我们需要引入一种可以标注文本内容、表达其语义信息、存储结构化数据的标注技术。XML就是我们需要的技术。

二、可扩展标记语言—XML

XML（Extensible Markup Language的缩写），意为可扩展标记语言。它是国际互联网联盟（W3C）开发的用于网络环境下数据交换、数据管理和网页设计的新技术。XML1.0规范于1998年发布，2000年发布的第二版（仍为1.0版）是最近的推荐标准。虽然XML和HTML都是用于网络环境的技术，但XML标准摒弃了HTML用固定标签集的缺陷，而可以为我们分析的元素创建所需要的任何标签。概括起来，XML具有以下显著优点：内容与显示分离，清晰易读；方便共享和传播；扩展性强，易于再加工；支持大字库；检索迅速，容易开发；转换方便；网络功能强大（P51）。
XML最显著的特点是，它具有很好的伸缩性和灵活性，研究者可以根据实际需要，创建自己所需要的任何标识，将文档分成若干个元素，在需要的地方加上相应的标识。被加注XML标记的文档，就成为XML文档。一个XML文档就是一个文档元素，或称为根元素。这个文档元素又被切分为不同等级的元素，每个元素用一对起始标签与结束标签加以标识。元素下可以嵌套若干个有序的子元素，子元素同样可以被加上标识。一个XML文档被切分的元素的数量和层级由研究者根据自己的需要来确定。这样整个文档的结构就以一种“树”状的形态呈现出来。
XML用来描述信息结构的模式被称为Schema。XML Schema确定文档的合法模式，在这个模式下，文档的元素以及属性，子元素的数量、顺序以及属性，数据的类型与默认值等要件均被定义。只有符合定义的文档才能通过有效验证。

三、《古代汉语》文选的XML标注和处理

1.电子文本的生产

目前各高校使用的《古代汉语》教材种类很多，根据教学的实际，我们以王力《古代汉语》教材为底本制作电子文本，具体版本为1999年5月第3版。书中文选所据版本，与王力《古代汉语》一致。在遇到较难录入的繁难生僻字时，我们主要使用北京逍遥笔工作站开发的“逍遥笔手写输入法”以及华中科技大学尉迟治平教授主持开发的“中文超大字符集输入板”。

2.《古代汉语》文选的XML建模

在分析了王力《古代汉语》文选部分的结构之后，我们将整个文选部分命名为“文选库”，作为根元素。在“文选库”下，包含若干“文章集”子元素，如《左传》就是一个“文选集”，内容包括若干篇被选的“文章”。一篇“文章”就是《古代汉语》具体所选的篇目，如《郑伯克段于鄢》。“文章”下包括“题属”和“正文”两部分。“题属”包括“题目”、“出处”、“作者”三个子元素。“正文”之下切分为若干个“段落”。“段落”又切分为若干个“大句子”。“大句子”被切分为若干个“分句”。“分句”被切分为若干个“字词”。其模型如下图所示：
我们采用汉语拼音作为标记。如“文选库”，我们使用“wenxuanku”标记；“文章”，使用“wenzhang”标记。其它类推。
分析好文档的结构并设计好相应的标记后，我们就可以建立数

摘自：毕业论文目录www.udooo.com

据模型了。DTD（Document Type Definition）和XML Schema两种技术均可用于描述XML文档的结构和内容模式。与DTD相比，XML Schema是内容更加开放的模型，可扩展，支持丰富的数据类型，功能也更加强大。Schema本身也是一个XML文件，符合XML语法。我们既可以使用XML Schema来验证内容的合法性，也可以将其作为模式架构添加到文本编辑器中，用来自动标注文本。使用XML Schema建模会形成一个扩展名为xsd的文件。

源于：论文提纲格式www.udooo.com

基于XML《古代汉语》教学信息标注

一、问题的提出

二、可扩展标记语言—XML

三、《古代汉语》文选的XML标注和处理

1.电子文本的生产

2.《古代汉语》文选的XML建模

相关论文

频道推荐

热门论文阅读

排行榜

猜你喜欢