您的位置: turnitin查重官网> 计算机 >> 计算机硬件 >分布式基于HDFS海量分布式文件系统和优化网

分布式基于HDFS海量分布式文件系统和优化网

收藏本文 2024-01-27 点赞:12049 浏览:47627 作者:网友投稿原创标记本站原创

摘要:随着信息化在社会中的运用越来越广泛,信息的数据量也越来越大,信息的不断膨胀导致信息的存储越来越重要,如何快速地和高效地对海量信息进行存取成为了人们当前关注和探讨的一个重要课题。本论文对Google分布式文件系统和Hadoop文件系统进行了探讨,仿照GFS设计理念的HDFS文件系统因其良好的扩展性得到了广泛的关注,并且是一个优秀的开源分布式文件系统,但要将其运用在海量分布式文件存储中还需进行一定的优化。本论文以HDFS文件系统为对象,深入探讨其架构和数据组织方式,以及读写操作的详细流程,参考其它优秀的分布式文件系统的设计,通过引入一些优秀的机制,提升HDFS文件系统的性能,使其能够更好地运用于搜索引擎外的其它领域。首先以架构上对HDFS进行优化,采取轻量级的系统设计,通过小集群有效地减少namenode瓶颈,将namenode部分权限下放到datanode,并通过上层索引系统来管理namenode机器,实现系统的高效访问。为保证数据的容错性,系统还采取双机热备份机制。通过这些架构优化,能有效地满足用户以及业务的快速增加所带来的海量存储不足,使系统的扩展性能更好。然后以性能上对HDFS进行优化,通过采取裸设备能有效地减少工/O次数以及对HDFS块大小进行更改,设置偏移ID统一标识文件的位置,有效地提升文件的读写效率,并更好地支持大小文件的存储,使系统实现对不同类别的海量存储需求如图片、视频、文档、语音的统一存储。本论文还对namenode、datanode及客户端分别设计了不同的缓存对策,通过Cache的异步读写,提升运用程序的I/O响应速度,大大提升存储系统的性能。最后,通过浅析改善后HDFS的I/0历程及简单的读写操作实验,验证了对于namenode的瓶颈有着良好的改善,并对不同大小的文件有着较好的支持,体现出比原HDFS更优的性能,以而证明了本论文的改善策略是有效的。关键词:HDFS论文分布式文件系统论文海量存储论文架构论文

    摘要4-6

    ABSTRACT6-11

    第一章 引言11-14

    1.1 课题背景11-12

    1.2 课题任务12

    1.2.1 课题内容12

    1.2.2 本人承担任务12

    1.3 论文结构12-14

    第二章 存储技术的进展14-19

    2.1 直连存储DAS14

    2.2 网络连接存储NAS14-15

    2.3 存储区域网络SAN15-16

    2.4 集群系统存储技术16-17

    2.5 基于P2P的分布式存储技术17

    2.6 分布式存储技术的进展走势17-18

    2.7 本章小结18-19

    第三章 分布式文件系统相关技术探讨19-30

    3.1 分布式文件系统基本结构19-21

    3.1.1 元数据管理20

    3.1.2 分布式文件系统缓存20-21

    3.1.3 分布式文件系统数据冗余21

    3.2 GOOGLE文件系统21-25

    3.2.1 GFS的架构21-22

    3.2.2 GFS的容错设计和诊断工具22-23

    3.2.3 GFS的系统交互23-24

    3.2.4 GFS的扩展性能24-25

    3.3 HADOOP文件系统25-27

    3.3.1 Hadoop分布式计算框架25-26

    3.3.2 Hadoop分布式文件系统26-27

    3.3.3 Hadoop的扩展性能27

    3.4 HADOOP分布式文件系统与GFS的异同之处27-29

    3.5 本章小结29-30

    第四章 HDFS运用于分布式文件系统通用性浅析30-41

    4.1 HDFS的架构30-33

    4.1.1 HDFS架构浅析30-31

    4.1.2 HDFS架构上的缺点31-33

    4.2 HDFS的数据组织方式33-35

    4.2.1 本地数据块组织33

    4.2.2 数据组织层次33-35

    4.3 HDFS的简单I/O历程浅析35-40

    4.3.1 HDFS读文件历程浅析36-37

    4.3.2 HDFS写文件历程浅析37-39

    4.3.3 HDFS文件读写性能浅析39-40

    4.4 HDFS运用场景40

    4.5 本章小结40-41

    第五章 基于HDFS的海量分布式文件系统的优化41-57

    5.1 基于HDFS的架构优化41-46

    5.1.1 采取小集群的轻量级的系统设计41-44

    5.1.2 namenode部分权限下放到datanode44

    5.1.3 增加上层索引系统44-45

    5.1.4 双机热备份机制45-46

    5.2 对文件存储性能的改善46-50

    5.2.1 采取裸设备46-47

    5.2.2 块尺寸大小设计为2G47-48

    5.2.3 设置偏移ID标识文件位置48-50

    5.3 缓存对策50-52

    5.3.1 namenode缓存对策50-51

    5.3.2 datanode缓存对策51-52

    5.3.3 客户端缓存对策52

    5.4 改善后HDFS系统I/O历程浅析52-53

    5.4.1 改善后HDFS读文件52

    5.4.2 改善后HDFS写文件52-53

    5.5 系统性能测试53-55

    5.5.1 实验环境53-54

    5.5.2 实验设计及结果浅析54-55

    5.6 改善后HDFS运用场景55-56

    5.7 本章小结56-57

    第六章 结束语57-59

    6.1 论文工作总结57-58

    6.2 不足和展望58-59

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号