您的位置: turnitin查重官网> 计算机 >> 程序设计 >基于短语维吾尔文文本分类

基于短语维吾尔文文本分类

收藏本文 2024-03-29 点赞:20647 浏览:94006 作者:网友投稿原创标记本站原创

摘要:文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(V)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。
关键词:文本分类;短语抽取;支持向量机;维吾尔语;互信息
:A
引言在文本分类过程中,文本的表示模型是一个既基本又重要的问题。只有先将文本从无结构或者半结构化的原始形式转化为计算机能够理解的表示模型后,计算机才能对文本内容进行分析与处理。向量空间模型(Vector Space Model,V)仍是文本特征表示的主要方法,相关研究仍然集中在以什么特征单元(词,短语,nGram)作为特征项这个问题上[1]。大部分系统仍是以单词作为特征项,也就是基于词袋模型(Bag Of Words,BOW)的。虽然BOW具有直观且易于实现等优点,但是存在一个很大的缺陷,就是它没有考虑文本上

源于:论文格式怎么写www.udooo.com

下文间的语义关系和潜在的概念结构,特征项之间是独立的,不能充分反映出文本总体面貌。正是因为从根本上难以克服基于词的BOW的先天缺陷,基于其之上的很多分类算法准确率都不是很高。最基本最有效的改进应该是从向量空间模型的文本表示方法入手,选择文本表达能力较强的特征单元作为文本特征项,以提高对文本的表达能力[2]。特征单元的选择是文本向量化的基础,特征单元不同则特征空间不同,其中文本向量的分布也会完全不同。可以说特征单元的选择从根本上影响着整个文本分类的效果。对中英文文本分类中的特征单元的选择,国内外研究人员做了大量的研究工作。在文献[3]中,作者指出短语是指在文本中连续出现的具有句法意义的或统计意义的多个词并提出了一种基于统计方法的英文短语抽取算法,通过分类实验证明了短语作为文本特征的有效性。文献[4]对英文文本分类中的特征单元粒度选择进行了研究,指出短语作为文本特征有助于提高英文文本分类的效率。在文献[5]中,作者将汉字和汉语单词作为特征项,在三种不同的中文语料库上进行了分类实验,指出直接使用汉字进行分类,也可以得到和单词一样的分类效果。文献[2]指出,短语特征更有利于表达中文文本的内容特征。此观点在一些应用系统中也得到了证实[6]。 我们前期的研究工作[7]显示,在中英文文本分类中表现良好的基于词的V表示模型(也就是词袋模型,BOW)对维吾尔文来讲效果并不好。在中英文中的一个单词在维吾尔文中不一定就是一个单词,而可能是一个短语。

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号