摘要5-6
ABSTRACT6-10
第一章 绪论10-15
1.1 课题探讨背景及作用10-11
1.2 课题探讨近况11-13
1.2.1 微博文本探讨11-12
1.2.2 文本商业信息抽取12-13
1.3 本论文的主要工作13-14
1.4 本论文的组织结构14-15
第二章 相关论述及技术15-28
2.1 文本的表示15-17
2.1.1 向量空间模型15-16
2.1.2 TF-IDF 加权16-17
2.2 文本分类策略浅析17-20
2.2.1 朴素贝叶斯算法17-18
2.2.2 KNN 算法18-19
2.2.3 决策树19
2.2.4 支持向量机19-20
2.3 开源云计算平台20-27
2.3.1 云计算进展20-22
2.3.2 HADOOP 的运用近况和进展走势22-23
2.3.3 HADOOP 文件系统(HDFS)23-25
2.3.4 HADOOP 中 MAPREDUCE 的实现25-27
2.4 本章小结27-28
第三章 基于特点词类别分散度的微博分类探讨28-35
3.1 微博文本预处理28-31
3.1.1 微博文本特性28-29
3.1.2 微博中文分词29-30
3.1.3 微博停用词的处理30-31
3.2 微博特点项选择31
3.3 微博特点向量维度扩展31-32
3.4 微博特点词类别分散度计算及分类32-33
3.5 本章小结33-35
第四章 基于商业搜索权重的微博商业词抽取35-42
4.1 微博商业关键词35-36
4.2 微博特点词商业价值影响因素浅析36-37
4.3 词语互联网商业搜索权重计算37-39
4.4 基于微博文本的 TF-IDF 改善39-40
4.5 词语商业权重调整40-41
4.6 本章小结41-42
第五章 实验与浅析42-54
5.1 实验环境选择及搭建42-43
5.2 微博数据收集43-44
5.3 基于类别分散及维度扩展的微博分类实验44-48
5.3.1 实验评价指标44-45
5.3.2 实验处理步骤45-47
5.3.3 实验结果及浅析47-48
5.4 基于改善 TF-IDF 及搜索权重的商业词抽取实验48-53
5.4.1 实验数据及评价指标48-49
5.4.2 实验处理步骤49-51
5.4.3 实验结果及浅析51-53
5.5 本章小结53-54
第六章 总结与展望54-57
6.1 本论文完成的主要探讨工作54-55
6.2 不足之处及工作展望55-57
致谢57-58