摘要:随着信息技术和网络技术的高速进展,互联网已经迈入了“Web2.0时代”。“Web2.0时代”的互联网朝着更加智能化、个性化和社会化的方向进展,影响并转变着人们的生活方式,其中最典型的例子便是社交网络(SNS,Social Networking Services)。由于社交网络拥有庞大的用户群体,并且用户频繁地更新微博,造成社交网络每天都会产生大量的用户数据。如何以这些用户数据中发现深层次的有用信息,并据此为用户提供个性化的怎么写作推荐成为社交网络重点关注的方向。但是,社交网络产生的往往都是超大规模的数据集,如何处理这种大规模的数据集成为一个较为严峻的挑战。Hadoop是Google云计算平台的开源实现,它是一个能够对大量数据进行分布式处理的软件框架,具有高效性、高可靠性、高可伸缩性、经济廉价性等诸多优点,在工业界和学术界得到广泛运用。为了能够高效地处理海量数据,并保证可扩展性,利用一个分布式平台实现社交网络怎么写作推荐算法是不二选择。鉴于Hadoop固有的大规模数据存储和处理能力可以有效地解决海量数据的安全存储和高效处理难题,同时可以保证数据的可靠性、有效性和安全性,本论文提出在Hadoop云平台上构建社交网络怎么写作推荐系统。该系统分为数据采集模块、数据预处理模块、数据存储模块和怎么写作推荐模块四部分。其中,数据采集模块利用新浪微博API获取用户数据;数据预处理模块采取FudanNLP进行中文分词处理;在数据存储模块中,构建存储新浪微博的数据表,通过HBase API实现数据库的操作;怎么写作推荐模块在MapReduce模型上实现分布式的TF-IDF算法,利用该算法计算用户微博中各个词语的重要量,提取出微博中的关键词。根据以微博中提取出的关键词,可以发现用户的兴趣所在,进而向用户推荐相关的内容。为了验证本论文中分布式TF-IDF算法的有效性,将分布式TF-IDF算法提取的关键词和TextRank算法提取的关键词多次进行比较。结果发现,本论文中分布式TF-IDF算法和TextRank算法提取出的关键词比较接近,并且随着关键词数目的增加,二者的结果变得更加接近,进而证明了在MapReduce上实现的分布式TF-IDF算法是准确的、有效的。同时,由于分布式TF-IDF算法考虑到了关键词的辨识度不足,它在提取微博关键词时,较TextRank算法体现更优。此外,通过与TextRank算法进行响应时间的比较,可以看出,分布式TF-IDF算法具有良好的可扩展性。本论文中对基于Hadoop云平台的推荐系统的探讨,在论述上,对云平台下的数据挖掘运用具有一定的参考价值;在实践上,对云平台下推荐系统的实现具有一定的探讨作用。关键词:云计算论文社交网络论文怎么写作推荐论文Hadoop论文HDFS论文MapReduce论文HBase论文TF-IDF论文
摘要4-6
ABSTRACT6-10
第1章 绪论10-16
1.1 探讨背景10-11
1.1.1 社交网络10-11
1.1.2 云计算11
1.2 探讨作用11-12
1.3 国内外探讨近况12-14
1.4 探讨内容14
1.5 本论文的组织结构14-16
第2章 怎么写作推荐关键技术综述16-22
2.1 推荐系统介绍16
2.2 推荐不足定义16-17
2.3 推荐系统分类17-21
2.3.1 基于内容的推荐17-19
2.3.2 协同过滤推荐19-21
2.3.3 混合推荐21
2.4 本章小结21-22
第3章 开源云计算平台 Hadoop22-32
3.1 分布式文件系统 HDFS22-23
3.2 并行编程模型 MapReduce23-28
3.2.1 MapReduce 编程模型23-25
3.2.2 MapReduce 执行流程25-26
3.2.3 MapReduce 编程基础26-28
3.3 分布式数据库 HBase28-31
3.3.1 HBase 数据模型28-29
3.3.2 HBase Shell29-30
3.3.3 HBase API30-31
3.4 本章小结31-32
第4章 怎么写作推荐系统框架32-38
4.1 数据采集模块33
4.2 数据预处理模块33-36
4.2.1 中文切分词33-34
4.2.2 词性标注34
4.2.3 关键词提取34-36
4.3 数据存储模块36
4.4 怎么写作推荐模块36-37
4.5 本章小结37-38
第5章 系统实现38-58
5.1 微博数据的抓取38-41
5.1.1 获取 AppKey 和 AppSecret38-40
5.1.2 抓取微博数据40-41
5.2 部署伪分布式 Hadoop 平台41-47
5.2.1 安装 JDK41-42
5.2.2 安装 ssh42
5.2.3 安装 Hadoop42-45
5.2.4 在 ecppse 中配置 Hadoop45-47
5.3 HBase 伪分布式配置47-49
5.4 TF-IDF 算法 MapReduce 化49-51
5.5 实验结果与浅析51-57
5.5.1 分布式 TF-IDF 算法的结果51-53
5.5.2 分布式 TF-IDF 算法与 TextRank 算法的比较53-57
5.6 本章小结57-58
第6章 总结与展望58-60
6.1 总结58
6.2 展望58-60