摘要:伴随着互联网的飞速进展,网络空间因其交互性、即时性和开放性的特点已经成为人们交流意见、宣泄情感的首选平台,以及突发事件相关信息和网络舆情第一时间出现和传播扩散的媒介。互联网异构、动态的海量信息环境和突发事件难以预测、传播快捷、影响广泛的显著特点,给传统网络舆情获取技术带来新的挑战。突发事件网络舆情数据采集与抽取技术能够以互联网上自动采集大量突发事件网络舆情相关网页,并以中自动抽取出舆情数据,对突发事件网络舆情信息的监测和预警具有重要作用。本论文对突发事件网络舆情数据采集与抽取技术进行探讨,主要包括:突发事件网络舆情数据采集技术、网络舆情载体类型识别技术和突发事件网络舆情数据抽取技术。论文主要探讨成果如下:(1)为及时准确地获取监测网站的突发事件网络舆情数据,本论文提出了一种基于站点地图的突发事件网络舆情数据采集策略。该策略首先构建出含有监测网站各版块突发事件热度的站点地图;接着在站点地图的指导下,对采集任务队列进行优化和适时更新;最后借用主题采集技术实现了突发事件网络舆情相关网页的采集。实验结果表明,该策略能够自动调整更新频率,及时地采集所需网页,较好地适应监测网站结构的动态变化。(2)针对现有网页识别策略识别准确率不高的不足,本论文提出了基于综合特点的网络舆情载体类型自动识别算法。该算法首先引入频率差法和回归特点消去法分别对特点较多的内容特点和结构特点进行了特点选择,构建了面向网络舆情载体类型识别的特点集;接着提取了网页的超链接特点、内容特点和结构特点用于表示网络舆情载体;最后采取SVM分类器对网络舆情载体类型进行识别。实验结果表明,该算法能够准确识别网络舆情载体的类型。(3)为克服Web论坛评论抽取中有着较多噪声和数据不等长等复杂的不足,本论文提出了一种论坛类网页的突发事件网络舆情数据抽取策略。该策略首先依据Web论坛评论网页的特有的结构和特点,自动识别出数据区域;接着对数据区域中的评论进行噪声滤除与评论边界判定,随后自动生成模板用于新网页的评论抽取;最后利用统计信息和少量规则,以评论中抽取出所需舆情数据。实验结果表明,该算法具有良好的通用性,较高的准确率、召回率和抽取效率。关键词:突发事件论文网络舆情论文站点地图论文网络爬虫论文网页类型论文自动识别论文Web信息抽取论文
表目录6-7
图目录7-8
摘要8-9
ABSTRACT9-11
第一章 绪论11-19
1.1 课题背景及探讨作用11-12
1.2 国内外探讨近况12-17
1.2.1 突发事件网络舆情数据采集技术12-13
1.2.2 网络舆情载体类型识别技术13-15
1.2.3 突发事件网络舆情数据抽取技术15-17
1.3 本论文结构安排17-19
第二章 突发事件网络舆情数据采集19-32
2.1 突发事件网络舆情数据来源19-20
2.1.1 网络新闻19-20
2.1.2 网络论坛20
2.1.3 网络博客20
2.2 突发事件网络舆情数据采集策略原理20-21
2.3 基于站点地图的突发事件网络舆情数据采集21-29
2.3.1 策略流程图22
2.3.2 突发事件热度站点地图构建算法22-28
2.3.3 突发事件网络舆情数据采集28-29
2.4 实验结果与性能浅析29-30
2.5 本章小结30-32
第三章 网络舆情载体类型识别32-44
3.1 基于综合特点的网络舆情载体类型识别原理32
3.2 基于综合特点的网络舆情载体类型识别32-41
3.2.1 算法流程图32-33
3.2.2 网页预处理33
3.2.3 特点选择33-37
3.2.4 网页表示37-38
3.2.5 构造分类器38-41
3.3 实验结果与性能浅析41-43
3.4 本章小结43-44
第四章 突发事件网络舆情数据抽取44-55
4.1 论坛类网页的突发事件网络舆情数据抽取原理44-46
4.1.1 Web 论坛评论页面的表示策略44-45
4.1.2 论坛类网页的突发事件网络舆情数据抽取原理45-46
4.2 论坛类网页的突发事件网络舆情数据抽取46-51
4.2.1 策略流程图46
4.2.2 数据区域自动发现46-47
4.2.3 噪声滤除与评论边界判定47-49
4.2.4 模板自动生成算法49-51
4.2.5 论坛评论中的舆情数据抽取51
4.3 实验结果与性能浅析51-54
4.4 本章小结54-55
结束语55-56