您的位置: turnitin查重官网> 工程 >> 电气工程 >> 电气信息及自动化 >中文中文问答系统中理由理解算法征文

中文中文问答系统中理由理解算法征文

收藏本文 2024-03-02 点赞:31403 浏览:144292 作者:网友投稿原创标记本站原创

摘要:问答系统能够用准确、简洁的答案回答用户提出的问题。问题理解是其首要的分析工作。本文应用了基于规则的问题分类方法,提出了一种基于维基百科关键词扩展和基于同义词的关键词扩展相结合,并对问题中的关键词进行重要性标识的问题理解方法。实验结果证明,该方法对提高问题分类的准确率有较好的效果。
关键词:问答系统 问题理解 问题分类 信息提取
1007-9416(2012)12-0101-02
1、引言
自动问答系统是基于信息检索系统的高级形式,用户用自然语言描述的句子作为检索式,返回结果为用户所需问题的直接答案。问答系统主要包括三个部分:问题理解,文档检索和答案抽取。问题理解模块对问题进行分类的同时提取出关键信息;信息检索模块根据问题理解部分提供的关键词进行检索,找到相关的文本内容;答案抽取模块的主要工作是对检索的结果进行过滤,抽取问题的精确答案,而后对候选答案按相应的算法进行排序。
其中,问题理解对自动问答系统的整体性能至关重要。首先,对用户所提问题分类,对于不同类型的问题,写作对应的信息检索和答案抽取规则;其次,分析问题,提取出问题的关键词。问题分类通常采用基于规则的问题分类方法和基于统计的分类方法。基于规则的方法在问题的类别定义好后,相应的规则比较容易写作,因此分类的效果较好。还因为不需要训练就能够直接分类,属于模式匹配的范畴,所以分类的效率相对较高;基于统计的问题分类方法主要有De11 Zhang等人提出的利用tree kernel提取特征的支持向量机(SVM)算法[3],将问题划分为6大类,分类精度达到了90.0%。还有将词和词性作为特征的贝叶斯分类模型问题分类方法[4]。IBM TREC-9 system利用结合词法和句法特征的最大熵模型[5],对3300个标注好的问题进行了训练,测试结果达到了90.95%的准确率。
本文应用了基于规则的问题分类方法,在此基础上提出了一种基于维基百科关键词扩展和基于同义词的关键词扩展相结合,以及对问题中的关键词进行重要性标识的问题理解方法。

2、问题分类

问题类别的数量太多会造成类别间的差别过小,使得处理过程混淆而将把问题的类别分错。如果问题类别的数量太少又覆盖不了所有的问题。本文结合实验比较将问题的类别分为9个大类(表1)。
根据上述拟定的问题类别本文采用如下分类方法:
首先归纳出9个问题类别中特有的类别词,按照其主要程度给予其不同的权重,最重要的权重为1,次要的权重为0.5,剩余的权重为0.2。
然后对问题分词并进行词性标注且去除问题中的停用词。根据关键词匹配的方法,将其权重值累加,计算出问题分属各类别的权重的和值。
最后取权重的和值最高的问题类别,若和值大于事前设定好的阈值,则判定问题属于该类别,否则把该问题归为事件类。问题分类的流程图如下所示:

3、问题的关键信息提取

关键信息提取是问题理解模块的重心,本文对问题中关键信息提取采用了基于维基百科关键词扩展和基于同义词的关键词扩展相结合,以及对问题中的关键词进行重要性标识相结合的算法:
(1)对分过词且标注好词性的问题进行停用词过滤。
(2)过滤掉问题中出现的比如 “请问”,“请比较”等一些常见的客套词。
(3)问题的关键信息一般为实词,因此需要根据词语的词性过滤虚词,仅仅留下名词,形容词,动词,数量词,副词,时间词。
(4)将过滤后的剩余词进行重要性标注,按照重要性分为两类,第一类是必须包含词:是在信息检索和答案抽取环节中必须要出现的关键词,如果缺少这类词就会失去问题的本意。例如,问题“瓦良格号什么时候服役?”中,“瓦良格号”就非常重要,若缺失了它,其它的服役时间根本不是我们所关心的问题。第一类词主要有名词 (一般是地名,人名,专有名词和机构名)构成,我们将其用“M”标记。第二类是去除第一类词后词,这些词没有第一类词关键,检索出的结果中也可不包含这类词。我们将其用“S”来标记。第二类词主要起修饰的作用,通常为形容词,副词,数量词,表示时间的词等。
(5)对经过重要性标注的关键词进行同义词扩展。因为往往问题和答案中会出现意义相同的不同词,比如“电脑”和“计算机”就是一对同义词,有可能分别出现在问题和答案中接下来再对扩展的词进行标注,被标记为“M”的词的扩展词标记为“Me”,被标记为“S”的词的扩展词标记为“Se”[6]。
(6)最后再将被标记为“M”的词进行基于维基百科[7]的关键词扩展,维基百科中的中

摘自:毕业论文怎么写www.udooo.com

文词条数量巨大,且意思相同和相近词条之间有关联性,通过维基百科的词条找出对应标记为“M”的词的扩展词条标记为“Me”。
(7)返回输入的问题对应的带有标记的关键词即关键信息。

4、实验结果及分析

本实验所用的实验语料是从NTCIR7评测题目中随机抽取出了300个问题。问题是非限定领域的,所以涉及的领域比较广泛。实验分别从下面两个方面来进行测试:
(1)问题分类的准确性。由于评测题目的结构比较规范,因此规则制定也就比较全面,进而问题分类的准确率也很高,实验的准确率如表2所示:
由上述结果可以看出,有关、定义、关系、为什么、地点和时间这些类型的问题特征明显,结构固定,因此匹配的结果百分之百正确。对于人物、事件和组织机构这些类型的问题,由于特征不明显,问题的结构相对复杂,因此问题分类的正确性也相对会低一些。可以看出,采用基于规则匹配的问题分类方法对于比较规范的问题题目分类的效率非常高。
(2)问题关键词扩展对比实验。我们依然使用了上一个实验中的300个问题,通过Google在线检索的方式,对检索出来的前50条内容,由人工和本文方法返回的关键信息进行比对。找出和问题相关的条数。实验的结果依次为:未进行扩展的平均相同条数为11.2;进行同义词扩展的平均相同条数为19.8;进行基于维基百科的相关词扩展后的平均相同条数为22.9。通过实验结果可以看出,随着问题的关键词扩展的逐步深入,检索到的相关文本数目也是越来越多,证明本文采用的关键词扩展方法是切实有效的。

5、结语.

[3]安玉璞.自然语言问答系统的设计与实现[硕士学位论文].哈尔滨:哈尔滨工业大学,2003.
[4]刘迁,贾惠波,中文信息处理中自动分词技术的研究与展望[J],2006,42(3):175-177.
[5]王开扬.汉语的自动理解与汉语文本的改进.术语标准化与信息技术,2006(4):36-40.
[6]金砚硕.中文问答系统中答案提取的研究[硕士学位论文].鞍山:辽宁科技大学,2008.
[7]文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39.

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号