您的位置: turnitin查重官网> 汉语言文学 >> 世界文学史 >有关于词语数据挖掘技术在智能析取词语模运用中可行性分析学年

有关于词语数据挖掘技术在智能析取词语模运用中可行性分析学年

收藏本文 2024-03-27 点赞:8604 浏览:25336 作者:网友投稿原创标记本站原创

摘 要:计算机技术可以为中文信息处理提供支持。词语模是汉语新词语中的一种结构,本文试图基于数据挖掘技术中的关联规则和聚类分析这两种方法,从理论上分析智能析取词语模的可行性。
关键词:关联规则 聚类 词语模
1.引言
李宇明(1999)提出了词语模理论,词语模是指能批量产生新词语的一种造词模子,这种造词模子使得新生成的词语形成了一系列的词语簇。通常由“模标”和“模槽”两个部分组成,“模标”是词语模中固定的部分,而“模槽”则是词语模中不定的部分。现在发展的比较成熟的词语模有“X族”、“被XX”、“晒XX”、“XX门”等等。根据模标位置的不同,可以将词语模分为三种:前缀式、中缀式、后缀式。上例中的“X族”属于后缀式,“被XX”属于前缀式,中缀式极少,发展的还不成熟。要研究词语模,首先要获取词语模语料,如何从大型语料库中获取语料就成了智能析取的大难题。
数据挖掘技术中的关联规则是指在一个数据库中,每个事务都有与之相应的唯一标识符。关联规则挖掘数据的过程大致是先在数据库中确定高频项目组,再由这些高频项目组中产生关联规则。聚类分析方法可以将大量的数据分成不同的类,每一个类中的对象具有很大的相似性,不同的类中的对象有很大的差异性,聚类分析是一种探索性的分析,在分析过程中,可以从样本数据出发,对数据自动进行分类。目前,聚类分析方法已经在语言研究中得到了广泛的应用,尤其在词汇抽取等方面,聚类分析技术已经很成熟。下面就基于这两种数据挖掘方法,谈一谈智能析取词语模的可行性。

2. 智能析取词语模的可行性分析

现有的搜索技术已经能够完成从大型语料库中检索关键字位置的功能。智能析取词语模是建立在基本检索的基础之上的。
第一步是初步确定所需语料。以上文提到的“X族”为例,在我们还不确定这是一个词语模的时候,可在语料库中检索“族”,考虑到汉语音节特点,我们可选择“族”字前后共五个字作为第一次的统计语料,这五个字可分别定义为“AB族CD”,我们需要统计的数据就是AB族、B族、B族C、族C、族CD这五个成分。
第二步,利用数据挖掘技术分析择取有用语料。根据关联规则确定数据库中的高频项目组,可利用前后遍历的方法来进一步确定有用语料。检测设在例1中“AB族CD”显示的是:乐活族杂志,那么需要确定的五个成分就是:乐活族、活族、活族杂、族杂、族杂志。先选取“AB族”成分,向后遍历,若其他例句中还有同样的成分,则将该成分保留并记录。 若其他例句中没有再出现这种结构,则跳过,分析下个成分。同理对其他几种成分进行遍历分析。直到语料库中所有成分分析完毕。得到的记录便是各个高频词的集合。
第三步,使用聚类计算方法,我们可以将每个语料中的五种数据与语料库中的其他语料进行比对,将同样的用法归到一类,这样就可以得出哪一种出现的概率较大。若某种构式只是偶尔出现,则说明这种用法是不常见的,甚至可能是不规范的。根据现有的语料,我们可以知道,“B族C”、“族C

原创论文www.udooo.com

”、“族CD”这三种结构是不成立的,而“AB族”、“B族”这两种结构出现的比较多。这时,我们就可以初步判定,“族”可能构成一个后缀式词语模。
第四步,对智能分析的结果做人工分析。根据“例不十,则法不立”的原则,我们可以做出简单的规定,即一个成熟的词语模至少能生成十个以上的新词语。这时再对统计的结果进行分析,就可以得出较为准确的提取结果了。

3.可能存在的问题

上一节中的智能分析过程是我们的一个猜想,受客观条件的限制,可能还无法实现。主要问题在于以下两个方面:
一、语料库的建设是一切分析的基础,新词语活跃性较强,很可能还没有被广泛运用开来,就已经消亡了。在规范的白话文作品中很难看到这些词,而我们现有的现代汉语语料库大多是基于规范的白话文著作等内容建立的,因此,在这类语料库中做智能分析,得到的语料并不精确。网络语言词汇可以说是新词语的代表,而网络语言涵盖了即时口语、网络日志、交互论贴等多方面的内容。要建立一个完整的语料库,需要投入大量的人力、物力和时间。因此,语料库的建设是一个难点,也是影响整个研究的重点问题。
二、受某些词语语义等方面原因的影响,智能分析很难区分同素异义词,也就影响了词语模的确定。例如”拼X”,根据观察,我们可以确定这是一个词语模,熟知的词有:拼爹,拼学历,拼房,拼车,拼饭,拼牛奶。然而,这些例词中实际上含有两个词语模“拼1X”和“拼2X”,“拼爹,拼学历”属于“拼1X”,这里的拼是比拼义,而“拼饭,拼牛奶”属于“拼2X”,这里的拼是拼凑义,因此,这应该算作两个不同的词语模。此外,“拼房,拼车”既可以认定为“拼1X”又可以认定为“拼2X”。由此可见,同一个“拼X”结构,在智能分析的时候很容易混淆,如何解决这类词语的智能区分,也是智能析取词语模的一个难点。
4.结语
词汇是语言诸要素中发展最快的,研究词汇问题也有助于社会问题的研究。词语模已是汉语词汇的一种常见构式,短时间内发展出一大批相似词语决不是偶然现象,这个问题是值得人们注意并研究的。计算机技术在语言学研究中已有广泛应用。在词语模研究中首先要解决的就是确定词语模的问题,要从大型语料库中智能析取词语模,就必须要用到数据挖掘技术来辅助研究,本文只是从理论的层面浅析了数据挖掘技术应用的可行性,很多操作方法和实施技术还未得到验证,还有待继续研究。
参考文献:
李宇明.词语模[C].邢福义主编.汉语语法特点面面观[M].北京:北京语言文化大学出版社.1999,146-157
胥桂仙,许建潮,连远锋,李昱翠.文本挖掘中的特征表示及聚类方法[J]. 吉林工学院学报.2002.3。
作者简介:喻晗阳(1989-),女,江西南昌人,江西师范大学文学院201硕士研究生,研究方向:社会语言学。

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号