您的位置: turnitin查重官网> 工程 >> 电气工程 >> 中级电气工程师 >技术非结构化数据存储技术和实现

技术非结构化数据存储技术和实现

收藏本文 2024-02-01 点赞:21025 浏览:94336 作者:网友投稿原创标记本站原创

摘要:分布式文件怎么写作器系统是企业应用系统的基础组成部分,通过企业应用系统访问文件怎么写作将给企业应用系统带来极大的网络压力并降低怎么写作质量。本文提出在保证数据安全性的基础上,支持在企业中分布式部署文件怎么写作器群供其他企业应用系统共用,为企业中非结构化数据的管理和维护提供了完整的解决方案,可以有效的降低企业应用系统的研发、部署和维护成本,并提高企业应用系统怎么写作质量。
关键词:分布式 文件存储 文件怎么写作器
1007-9416(2013)04-0173-03
企业应用系统中存在大量的非结构化数据,通常企业机构使用基于网络的分布式文件怎么写作器维护非结构化数据,并在企业应用系统中授权访问。
文件怎么写作可以作为多种企业应用系统的基础怎么写作。一方面,我们需要基于网络的分布式文件怎么写作实现大量数据的存储。另一方面,集中的管理、监控和使用文件怎么写作,将在降低企业应用系统开发的难度和工作量的同时,简化企业应用系统的部署、管理和维护工作。
上述结构在保证了文件怎么写作器安全性的同时,存在下列不足:(1)文件传输的处理将极大的占用应用怎么写作器的处理能力及网络带宽,应用怎么写作器很可能因此成为企业应用的瓶颈。(2)按照用户界面中是否执行文件传输操作,最终用户预期的界面平均响应时间也不同,通常用户更难忍受非文件传输时的界面延迟。因此上述结构可能导致的文件传输挤占其他业务的处理能力的情况,将对企业应用系统的用户体验带来较大的影响。
参考互联网应用的文件处理机制,本文提出对分布式文件怎么写作器结构的改进,主要包括:(1)将文件流数据传输的负载从应用怎么写作器分散到多个文件怎么写作器;(2)由于在基于B/S架构企业应用系统中,企业应用系统的客户端浏览器只能基于http(s)与怎么写作器通信,因此要求文件怎么写作器实现基于http(s)的访问接口,以标准的方式完成与客户端浏览器的通信;(3)为适应企业应用系统中频繁的数据变更和细粒度访问控制需求,确保直接面向最终用户的文件怎么写作器的安全性;(4)通过分布式文件怎么写作器中逻辑存储单元的定义,以及存储单元与物理存储位置的映射管理,实现不同企业应用系统间的隔离,进而支持建立企业级文件怎么写作,降低企业应用系统开发难度和工作量,简化企业管理和维护文件的工作。

1 基本概念

1.1 分布式文件系统

分布式文件系统是指文件系统时间共享模式的分布式实,通过一个公共文件系统为地理上分布的计算机用户提供数据和存储资源的共享。分布式文件系统的主要特征为网络透明性、位置透明性、可扩展性以及容错。

1.2 电子仓库

电子仓库DV(data vault)是指在PDM系统中实现产品数据存储与管理的元数据库及其管理系统,它是连接数据库和数据使用界面的一个逻辑单元,它保存所有与产品相关的物理数据和文件的元数据,以及指向物理数据和文件的指针。通过建立在数据库之上的关联指针,建立不同类型的或异构的产品数据之间的联系,实现文档的层次与联系控制。

1.3 HDFS

Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一个运行在普通的硬件之上的分布式文件系统。HDFS具有高容错性,可以部署在低成本的硬件之上,同时HDFS放松了对POSIX的需求,使其可以以流的形式访问文件数据,从而提供高吞吐量地对应用程序的数据进行访问,适合大数据集的应用程序。

2 分布式文件怎么写作器设计

2.1 架构设计

当文件怎么写作完全通过应用怎么写作器实现时,所有文件流都经过应用怎么写作器中转提供给最终用户。文件传输具有占用带宽大,占用怎么写作器连接时间长特点,属于长交互过程。企业应用系统中频繁进行文件操作会给应用怎么写作器带来较大的网络压力,同时大量的长交互过程将大量占用应用怎么写作器的怎么写作线程,从而降低了怎么写作质量。由此提出以下部署方式,图1是分布式文件怎么写作器的结构模型:
如图1,文件怎么写作器与应用怎么写作器同时对用户提供怎么写作。应用怎么写作器与文件怎么写作器之间存在操作指令交互,客户端存取文件的时候由文件怎么写作器直接对用户提供文件怎么写作,文件流不再经过应用怎么写作器,文件传输压力完全由多个文件怎么写作器承担,并不对应用怎么写作器产生影响。应用怎么写作器只需要满足大量并发的短交互过程,以及实现与文件怎么写作器间的操作指令交互,可以大大提高无文件交互时的怎么写作质量,或者支持更多的并发用户。而文件怎么写作器功能比较单一,可以简单的扩展文件怎么写作器数量以增加文件吞吐能力以及文件存储的能力。下文将分别讨论文件怎么写作器安全性方面的设计。

2.2 应用怎么写作器与文件怎么写作器相互认证

为保证文件怎么写作器的安全性,即文件怎么写作器只与配置指定的应用怎么写作器交互操作指令,增加了文件怎么写作器与应用怎么写作器的认证机制。
文件怎么写作器只认证应用怎么写作器,首先应用怎么写作器会安装一个由文件怎么写作器提供的插件,实际上认证过程发生在插件与文件怎么写作器之间。而文件怎么写作器对应用怎么写作器的认证基于配置指定和证书,即文件怎么写作器可以持有指定应用怎么写作器的证书,确保发放的ticket只有指定的应用怎么写作器可以使用,从而杜绝冒充应用怎么写作器申请ticket的可能。
对于没有ticket的访问,文件怎么写作器拒绝提供文件怎么写作。
这样认证机制保证了对于文件怎么写作的的访问者都是来自经过认证的应用怎么写作器的用户,从而保证了文件怎么写作器的安全性。

2.3 存储单元及映射管理

企业机构可以在网络上部署一套分布式文件怎么写作器系统提供企业范围的文件怎么写作,其他企业应用系统共用此文件怎么写作,从而实现集中的管理和维护文件数据。
分布式文件怎么写作器系统中包含多个实现文件存取的文件怎么写作器,同时每个文件怎么写作器内部可以划分为多个逻辑存储单元,每个企业应用系统可以使用多

学术论文下载www.udooo.com

个文件怎么写作器中的部分存储单元,从而在逻辑存储单元级别实现了企业应用系统间的隔离。每个存储单元均可以对应一个或者多个文件系统中的路径,不同存储单元对应的文件系统路径均不同,从而实现了不同企业应用系统间文件物理存储位置层面的隔离。
三元组(FileServerIP,FileS

源于:论文格式怎么写www.udooo.com

erverPort,CellID)唯一定位了分布式文件怎么写作器系统中的某个逻辑存储单元。与此相应,四元组(FileServerIP,FileServerPort,CellID,FileID)唯一确定了分布式文件系统中某个文件。在存储单元范围内,FileID唯一确定了一个文件。由于企业应用中不同的文件可能是重名的,因此不能使用原始的文件名作为FileID。每个文件怎么写作器均负责生成UUID作为本怎么写作器范围内的FileID,进而此FileID将用作对应文件系统中的文件名,从而确保FileID可以在某个文件怎么写作器范围内唯一标识一个文件。
文件怎么写作器中FileID Mapper组件完成FileID与文件系统中存储路径的映射运算,基于映射运算的文件定位方式具有如下优点:(1)无需存储FileID与文件系统存储位置对应关系,降低实现复杂度的同时提高了并发性;(2)映射算法简单;(3)可以在映射算法实现过程中添加简单的逻辑控制每个子路径下存储文件的数量。
3 实现

3.1 认证过程

认证过程发生在应用怎么写作器与文件怎么写作器之间,首先认为应用怎么写作器与文件怎么写作器之间的通讯是安全可靠的,(可以采用https协议确保安全性)。其次只有合法的应用怎么写作器才拥有文件怎么写作器插件。
认证中采用公钥私钥认证,在应用怎么写作中的文件怎么写作器插件中存贮着公钥,在文件怎么写作器上存储着对应的私钥。认证过程,应用怎么写作器请求认证,文件怎么写作器接到请求后生成一个随机数并通过自己的私钥加密,将加密过的随机数传给应用怎么写作器,应用怎么写作器通过公钥将加密串解密,并将解密结果返回给文件怎么写作器进行认证,通过这种认证方式认证应用怎么写作器。详细认证过程如图2。

3.2 存储映射

3.3 文件怎么写作器客户端组件

4 测试
测试多用户文件上传对怎么写作器性能的影响,通过多用户同时上传文件测试文件上传对怎么写作器性能的影响。

4.1 测试环境

4.2 测试方法

首先采用一台测试机进行上传一个一千兆的文件测试,记录文件怎么写作器带宽使用率。然后采用两台测试机同时上传一个一千兆文件,记录文件怎么写作器带宽使用率。

4.3 测试结果

如图3,记录了文件怎么写作器网络带宽使用率
图中1区域表示单独一台测试机上传文件,图中区域2表示两台测试机同时上传。

4.4 测试结论

由图3可以看出当一台测试机上传文件的时候占用怎么写作器带宽与两台测试机同时上传占用的带宽是成线性增长的。所以将文件传输部分单独由文件怎么写作器提供,能够有效分担应用怎么写作器的压力。

5 结论与展望

分布式文件怎么写作器系统是企业应用系统的基础组成部分,本文提出的改进方案在保证安全性的基础上,支持在企业中分布式部署文件怎么写作器群供其他企业应用系统共用,为企业中非结构化数据的管理和维护提供了完整的解决方案,可以有效的降低企业应用系统的研发、部署和维护成本,并提高企业应用系统怎么写作质量。在作为企业中统一管控的文件怎么写作器群应用时,目前的方案还存在不足,解决下面列举的问题将是后续的研究重点。
对于某个逻辑存储单元,其存储安全性有待继续加强,主要包括:(1)文件怎么写作器加解密算法可替换,每个企业应用系统均可能使用特定的加解密算法满足不同的安全需求,目前统一的DES算法无疑难以满足,因此文件怎么写作器需要实现基于存储单元的加解密算法配置,并且算法的关键参数(如密钥)应该由企业应用系统自行管理;(2)基于企业应系统的存储单元激活机制,在没有企业应用系统认证时,文件怎么写作器自身也不能访问加密存储单元中的文件内容,而对于未加密存储单元,非激活状态下文件怎么写作器将拒绝提供文件访问怎么写作。
参考文献
李武.面向现代怎么写作业的大规模分布式文件存储系统设计和实现:(硕士学位论文).杭州:浙江大学,2008.
Sanjay Ghemawat,Howard Gobioff,Shun—Taka Leung.The Google file system.
Proceedings of the Fifth NASA Goddard Space Flight Center Conference on Mass,Storage Systems and Techn0109i es,1996.
[3]http://hadoop.apache.org/common/docs/current/hdfs_design.html.
[4]http://code.taobao.org/p/tfs/wiki/intro/.
[5]周志华,何萍,尹建伟.基于Web的海量存储柔性分布式文件怎么写作器设计[期刊论文].计算机应用研究,2002(11).
[6]任蜀焱,何玉林,曾慧娥.基于Web的PDMS电子仓库关键技术研究 [期刊论文].机械与电子.200

6.(4).61-62.

[7]Pro Hadoop.Jason Venner. Heidelberg: Springer.2009.

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号