谈抽取基于hadoop微博文本分类与商业词抽取电大-turnitin论文查重

摘要：随着计算机技术和网络技术的飞速进展，微博已经普及成为国内的一大新型媒体。微博用户基数的迅速膨胀，加上信息的逐级传播，与之俱来的不足是微博数据规模达到空前水平。面对微博怎么写作迅猛进展中所产生的海量文本数据，如何准确有效的以中定向发现并获取所需要的有较高商业价值的资料和信息，进而提升广告精准度成为各微博平台数据探讨处理的一大目标，本论文将对如何有效的以海量微博文本数据中发现和抽取商业关键词进行探讨。为了更有针对性的进行商业关键词抽取，首先对海量微博数据进行了文本分类，一方面降低了单次数据处理的规模，另一方面对同类数据进行处理探讨将更有针对性。再对各个类别中文本的关键词结合互联网搜索引擎中的搜索权值进行调权，有效提升了微博文本中商业关键词抽取的精准度。由于微博文本数据具有总体数量多、单条简短及内容随意性大等特性，在利用传统分类策略及商业信息提取算法对其进行处理时有着一定的局限性。本论文考虑到单条微博文本信息简短包含的有效特点少，且内容比较口语化的特性，以相似词及搭配词方面对文本的特点词进行了扩展，尽量降低特点丢失的可能性；结合微博文本数量多及内容随意性大的特性，提出了一种基于特点词类别分散性及分散程度的微博文本分类策略。考虑到微博自有的转发数、评论数及海量规模等因素，本论文对传统的TF-IDF算法进行了相关改善，利用hadoop云计算平台并以单个用户的所有微博信息作为计算单元运用改善的TF-IDF算法，再综合词语在互联网搜索引擎中的搜索权值进行调权，实现了以海量数据中对具有商业价值关键词的有效抽取。实验表明，该微博分类策略在微博信息的分类中取得了较好的效果，在微博数据处理运用场景中，综合了改善的TF-IDF权重及词语互联网搜索权重的商业关键词抽取算法，具有较好的适用性及商业效果。而结合了云计算平台后,一定程度上提升了数据处理效率，使得对海量微博数据集上的处理变得可行有效。关键词：微博文本论文商业词抽取论文特点词扩展论文海量数据论文hadoop论文

摘要5-6

ABSTRACT6-10

第一章绪论10-15

1.1 课题探讨背景及作用10-11

1.2 课题探讨近况11-13

1.2.1 微博文本探讨11-12

1.2.2 文本商业信息抽取12-13

1.3 本论文的主要工作13-14

1.4 本论文的组织结构14-15

第二章相关论述及技术15-28

2.1 文本的表示15-17

2.1.1 向量空间模型15-16

2.1.2 TF-IDF 加权16-17

2.2 文本分类策略浅析17-20

2.2.1 朴素贝叶斯算法17-18

2.2.2 KNN 算法18-19

2.2.3 决策树19

2.2.4 支持向量机19-20

2.3 开源云计算平台20-27

2.3.1 云计算进展20-22

2.3.2 HADOOP 的运用近况和进展走势22-23

2.3.3 HADOOP 文件系统(HDFS)23-25

2.3.4 HADOOP 中 MAPREDUCE 的实现25-27

2.4 本章小结27-28

第三章基于特点词类别分散度的微博分类探讨28-35

3.1 微博文本预处理28-31

3.1.1 微博文本特性28-29

3.1.2 微博中文分词29-30

3.1.3 微博停用词的处理30-31

3.2 微博特点项选择31

3.3 微博特点向量维度扩展31-32

3.4 微博特点词类别分散度计算及分类32-33

3.5 本章小结33-35

第四章基于商业搜索权重的微博商业词抽取35-42

4.1 微博商业关键词35-36

4.2 微博特点词商业价值影响因素浅析36-37

4.3 词语互联网商业搜索权重计算37-39

4.4 基于微博文本的 TF-IDF 改善39-40

4.5 词语商业权重调整40-41

4.6 本章小结41-42

第五章实验与浅析42-54

5.1 实验环境选择及搭建42-43

5.2 微博数据收集43-44

5.3 基于类别分散及维度扩展的微博分类实验44-48

5.3.1 实验评价指标44-45

5.3.2 实验处理步骤45-47

5.3.3 实验结果及浅析47-48

5.4 基于改善 TF-IDF 及搜索权重的商业词抽取实验48-53

5.4.1 实验数据及评价指标48-49

5.4.2 实验处理步骤49-51

5.4.3 实验结果及浅析51-53

5.5 本章小结53-54

第六章总结与展望54-57

6.1 本论文完成的主要探讨工作54-55

6.2 不足之处及工作展望55-57

致谢57-58

谈抽取基于hadoop微博文本分类与商业词抽取电大

相关论文

频道推荐

热门论文阅读

排行榜

猜你喜欢