您的位置: turnitin查重官网> 计算机 >> 程序设计 >指代基于支持向量机分类和语义信息中文跨文本指代消解

指代基于支持向量机分类和语义信息中文跨文本指代消解

收藏本文 2024-01-29 点赞:5605 浏览:12998 作者:网友投稿原创标记本站原创

0引言
跨文本指代消解(Cross Document Coreference Resolution,CDCR)任务面临两项挑战:重名消歧与多名聚合。前者是将同一名称的不同实体区分开来,即布什既可表示美国第43任总统乔治·W·布什,也可表示美国第41任总统乔治·H·W·布什;而后者是将指向同一实体的不同名称合并起来,如北韩与朝鲜都表示同一个实体——朝鲜主义共和国
加:原文:朝鲜人义共和国
须作者再核实
。随着自然语言处理技术从单个文本内的信息抽取向多文本间的信息融合方向发展,作为文本间信息连接的重要纽带,跨文本指代消解引起了广泛的研究兴趣。
传统的跨文本指代消解主要面向信息检索,即将检索到的Web网页中具有相同名称的不同实体区分开来,其本质是重名消歧问题[1-2]。随着信息抽取技术的日渐成熟以及信息融合需求的不断加强,面向信息抽取的跨文本指代消解的研究得到了广泛的重

源于:毕业设计论文模板www.udooo.com

视[3]。与面向信息检索的跨文本指代消解不同的是,后者不仅要解决重名消歧问题,还要解决更为严重的多名聚合问题[4-5]。传统的跨文本指代消解采用基于聚类的无监督方法,其优点是无需训练语料,也取得了较好的性能[1,6-11]。不过,它的缺点在于无法综合考虑影响指代消解的多种因素和特征,因而将聚类算法应用于面向信息抽取的跨文本指代消解时,效果不尽理想[4,12]。
本文首先在ACE2005中文语料库的基础上,通过自动生成和手动标注相结合办法构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库[13]。然后,在该语料上,利用机器学习的分类方法充分融合各种构词特征、读音特征和语义特征,从而显著提高跨文本指代消解的性能。

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号