您的位置: turnitin查重官网> 图书馆 >> 情报管理 >试述基于统计语言模型中文网页信息检索要求

试述基于统计语言模型中文网页信息检索要求

收藏本文 2024-04-06 点赞:22231 浏览:97322 作者:网友投稿原创标记本站原创

摘要:互联网飞速进展,信息呈指数增加,信息获取途径更为多样化,但是信息搜索却变得更为复杂了。人们迫切需要高层次的信息处理技术来处理海量信息,快速检索到所需信息,以而帮助更好的进行决策和探讨。然而,信息处理技术的普及与广泛运用很大程度上得益于自然语言处理技术的进展,为了有效解决信息检索不足,对信息检索在文档内容表示、检索模型、匹配对策以及排序算法等方面的探讨逐渐增加。其中,对检索模型的探讨仍然是信息检索探讨的一个热点,各种检索模型和策略相继出现,如:布尔模型、向量空间模型、概率模型。尤其是近年来提出统计语言模型,将自然语言与统计学相结合来探讨信息检索,借助强大的数学基底,成为信息检索中占据统治地位的检索模型,并取得了大量探讨成果。对中文网页海量数据进行探讨,并将中文分词组件与lemur结合构建适宜于中文的信息检索系统方面的探讨相对缺乏。本论文在大规模中文网页语料库CWT200G的基础上,参考TREC和SWEM信息检索标准流程,以Lemur为基准工作平台,将其与中科院分词组件—汉语词法浅析系统ICTCLAS相结合,形成一个可供实验的简单的信息检索系统。首先,阐述了本论文的论述基础,介绍了基于统计语言策略的中文网页信息检索模型探讨中所要探讨的重点不足:统计语言模型、数据平滑、中文分词和中文文本索引等。然后,对信息检索评测的中文网页语料库和实验所需平台及系统进行简单介绍,对数据如何处理做了详细浅析。最后,通过实验数据比较浅析向量空间模型、概率模型等传统信息检索模型与统计语言模型对中文网页语料库进行主题检索时性能优劣;同时,在统计语言模型进行主题检索实验的时候,分别对Simppfied Jepnek-Mercer平滑策略、Dirichlet Prior平滑策略和Absolute Discouting平滑策略进行实验,并比较这三种平滑策略在信息检索中的性能。关键词:统计语言模型论文中文网页信息检索论文数据平滑技术论文中文分词论文

    摘要6-7

    Abstract7-8

    目录8-10

    1 绪论10-19

    1.1 探讨背景及作用10-13

    1.1.1 探讨背景10-12

    1.1.2 探讨作用12-13

    1.2 国内外探讨近况13-17

    1.2.1 信息检索13-15

    1.2.2 统计语言模型15-17

    1.3 探讨内容和组织结构17-19

    1.3.1 本论文探讨内容17-18

    1.3.2 本论文组织结构18-19

    2 基于统计语言模型信息检索原理19-25

    2.1 信息检索术语及检索流程19-22

    2.1.1 相关术语与概念19-20

    2.1.2 信息检索流程20-22

    2.2 基于统计语言模型的信息检索基本原理22-23

    2.3 统计语言模型运用于信息检索的优势23-24

    2.4 本章小结24-25

    3 数据平滑技术25-30

    3.1 数据稀疏不足25-27

    3.2 几种常见数据平滑技术27-28

    3.3 数据平滑技术对信息检索效果的影响28-29

    3.4 本章小结29-30

    4 中文分词和中文文本索引30-38

    4.1 中文分词30-33

    4.1.1 基于词典的分词30-32

    4.1.2 基于统计的分词32-33

    4.2 中文文本索引33-34

    4.3 中文分词和中文文本索引在信息检索中影响34-37

    4.3.1 中文分词对信息检索的影响34-36

    4.3.2 中文文本索引对信息检索的影响36-37

    4.4 本章小结37-38

    5 基于统计语言模型的中文网页信息检索评测38-53

    5.1 实验环境和数据来源38-44

    5.1.1 Lemur工具箱38-42

    5.1.2 CWT200G语料库42-44

    5.2 信息检索系统ChWebIR44-46

    5.2.1 系统实现44-45

    5.2.2 系统运转环境45-46

    5.3 实验策略46-49

    5.3.1 数据处理46-48

    5.3.2 评测指标48-49

    5.4 实验结果浅析49-52

    5.4.1 统计语言与传统检索模型对中文检索性能的比较浅析49-51

    5.4.2 平滑技术对统计语言模型中文检索性能的比较浅析51-52

    5.5 本章小结52-53

    6 总结和展望53-55

    6.1 总结53-54

    6.2 展望54-55

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号