您现在的位置: 首 页 >> 工程论文 >> 云平台下的NoSQL分布式大数据存储技术与应用

云平台下的NoSQL分布式大数据存储技术与应用

作者:林业论文
出处:www.lunrr.com
时间:2019-10-12

随着Web 2.0技术的发展,越来越多的非结构化数据(如文档,图片,音乐,视频等)产生了。根据IDC的研究,当前80%的企业是非结构化数据,并且以60%的速度增长。如何突破传统技术,实现大规模数据的高效存储和利用管理是一项重大挑战。

1.NoSQL数据库技术

非关系数据库(NoSQL)是一种新的非关系分布式存储技术。数据库数据不仅包含每日文本数据,而且还包含其他数据,例如图片,视频,FLASH动画等,因为它具有海量存储和灵活性。易于使用,高并发性等可以为系统提供可扩展的松耦合类型数据模式。此模式严格遵循CAP定理,可以很好地支持非结构化数据的存储,并满足高并发读写的要求。良好的可扩展性。

当前的NoSQL数据存储主要包括以下类型,如表1所示。

(1)键值对存储。通过存储键值对数据,它可以很好地满足系统的读写要求,例如MemcacheDB,Redis,Dynamo。

(2)文件数据存储。它可以有效满足系统对海量数据的存储和访问需求。当前存储主要包括MongoDB和Couch-DB,可以提高海量数据存储的访问效率。

(3)面向列的存储。在面向列的存储系统中,数据被列为存储单元。同一列数据存储在一起以支持该列的动态扩展,对于一个或多个列中的查询具有明显的I/O优势。典型的代表是Hhase,Hypertahle等。

2.MongoDB数据库

MongoDB数据库不仅可以提高系统键值存储的快速写入和读取速度,而且还与传统的关系型DBMS功能完全兼容。它可以提供强大,灵活和可扩展的非结构化存储。这样,存储方法使用松散的BSON数据结构进行存储。

MongoDB的主要功能如下:

(1)良好的可伸缩性:在设计的早期阶段,McngcDB数据库首先考虑数据库扩展问题。通过采用无模式存储结构,可以自动对服务器进行自动分段。使用MongoDB数据库的自动分片机制,可以实现集群中数据的动态负载平衡。

(2)丰富多样的数据存储:MongoDB是一个面向文档的数据库。 MongoDB丢弃关系存储模型。用户可以在不添加任何定义的情况下水平灵活地更改数据模型。

(3)丰富的搜索功能:该数据库不仅支持辅助索引,还可以方便地存储JavaScript脚本和MapReduce模式。

(4)出色的性能引擎:MongoDB数据库中的文档数据可以动态扩展。通常,将存储引擎配置为内存映射文件以实现数据文件的预分配,然后使用空间格式来确保数据库的稳定性能。

(5)方便的配置管理: MongoDB数据库为提高系统的可靠性和稳定性,通常使用服务器自身的机制来完成配置功能。 MongoDB数据库的核心是文档数据。每个文档数据中的字段名称和值存储在表中。通过Mon-goDB数据库实例可以轻松管理相应的数据库表。

2.1碎片化

在MongoDB数据库中,每个片段都由一个或多个服务器组成。服务器的主要功能是通过运行MongoDB进程来存储数据。但是,为了提高系统的可靠性并实现自动故障恢复,可以将每个片段独立地视为一个副本集。本质上,副本集是一种异步主从复制机制。每个副本集包括至少一个主节点和一个以上的辅助节点。主节点主要负责数据写入。

次要节点主要负责数据读取。在副本集中,数据一致性由两种节点之间的oplog来保证。所有操作数据和时间戳均写入oplog。由于其固定大小,所有辅助节点都会监视oplog的更改以实现与主节点的同步。复制副本通常可以实现两个或多个子节点的自动恢复。

2.2配置服务

配置服务主要用于存储MongoDB数据库集群的元数据信息。这些元数据信息来自两个方面:一个是分段服务器上的群集信息,另一个是分段群集服务器上的文档数据和收集信息。每个配置服务信息中都包含MongoDB数据库中的集群信息。通常使用两阶段协议相互通信以确保配置信息的一致性。配置服务器当前具有自己的复制模型,该模型可以备份群集的元数据信息。当任何群集服务器出现故障时,群集中的元数据将自动变为只读。通过这种方式,可以在不稳定的情况下有效地改变元数据信息,并且可以避免配置服务器节点之间元数据的不一致。数据库集群中配置服务器的异常不会影响整个集群的正常工作,最终可以确保集群写入数据或从集群读取数据。

2.3路由过程

路由过程可以将数据库集群中的多个组件视为一个系统。当MongoDB数据库服务器接收到用户请求时,它将首先查询相应的配置文件以查找存储数据的片段服务器。然后,通过配置服务协议将用户请求转发到相应的分片服务器。当所有分段服务器完成操作后,结果将打包并通过路由协议发送到Mcngos。当Mongos汇总所有数据结果时,最终结果将返回给用户。每次Mongos启动时,首先需要配置服务器以读取元数据单元并将其保存在本地。只要配置服务器中的元数据信息发生更改,它将在第一时间通知所有Mongos。

3Hadoop大数据云存储平台

Hadoop大数据平台是Apache的开源子项目。平台项目的主要目标是基于现有廉价硬件设备生成稳定且可扩展的分布式计算体系结构。 HDFS是Hadoop平台的子项目之一。它主要能够实现分布式文件系统,并为主要组织和公司构建云存储解决方案提供参考。

云存储数据中心是服务器群集的统称,该服务器群集由提供高容量,高并发数据存储的多个服务器组成。服务集群主要由主控节点和多个数据节点组成。集群系统可以通过网络设备连接在一起,方便用户的统一管理和维护。

非结构化数据存储非常广泛。当前,在系统构造功能模块中对非结构化数据有很多要求,包括图像上载和下载,新闻图像发布,视频编辑和文档管理。其云存储层次结构如图2所示。

但是,大多数功能实现是通过在服务器上创建可写目录来存储的。这种方法具有以下缺点:

(1)性能低下。由于系统需要大量的非结构化数据存储,因此将根据数据类型分配服务器带宽和计算能力。这导致大量服务器存储被占用,这对在某些核心设备上具有高性能要求的服务器有很大影响。

(2)集群同步难以维护。当大型项目规模需要群集支持时,为了确保节点内服务器之间的数据同步,通常需要确保基于服务器内协议的数据传输的一致性和完整性。

(3)服务安全性控制不善。目前,服务器逐渐采用集中管理和控制,对服务器出入口的安全性提出了更加严格的要求。传统的入侵是通过将木马上载到服务器来实现的。为了更好地改善服务的安全性管理,迫切需要监督外部服务接口。

(4)数据安全。为了在服务器群集之间交换数据,通常使用vpn登录来获取所需的数据信息,而vpn通常是内部和外部网络信息的输入凭据。加强对vpn等登录信息的监管对于确保数据安全最为重要。

(5)数据持久性。基于业务应用程序的系统通常使用单个数据库服务器进行存储。一旦数据库中发生异常,就不能保证数据的完整性和一致性,并且很可能发生存储数据丢失。一旦丢失,数据恢复通常很困难。

本文设计的非结构化数据云存储架构是建立在Hadoop之上的,其层次结构如下:

存储层:非结构化数据云存储系统提供不同的存储服务。每个服务的数据都存储在系统中并形成一个数据池。

管理:管理是非结构化数据云存储系统的核心层。通过管理,云存储中多个存储设备之间的协同工作可确保这些设备提供统一的数据公共服务。

应用程序服务层:该层主要基于用户自己的业务的业务需求。它可以实现与云存储服务器群集进行交互的特定操作,并最终实现用户的业务操作。

应用程序接口层:对应于云存储中的用户访问层。

本文的4个设计内容

为了优化HDFS的存储,本文介绍了MongoDB的非关系数据库进行相应的改进。 HDFS和MongoDB存储系统构建在Hadoop云平台上,以实现非结构化海量资源的存储。非结构化数据云存储平台如图3所示。

非结构化数据云存储平台中的MongoDB架构如图4所示。其功能如下:

客户端:包含用于访问MongoDB的接口,该接口维护高速缓存的数据以加快数据访问速度,例如收集位置信息。

协调服务:确保整个系统集群只有一个主控制节点,可以存储所有设置的地址条目,实时监视聚合服务的状态,实时将聚合服务的状态信息发送到主控制节点时间;存储和管理MongoDB的模式信息,包括可用的集合以及每个集合可用的文档。控制节点:分配收集空间,负责元数据存储的负载均衡;发现故障数据节点时执行故障转移;在MongoDB上处理垃圾文件回收和架构更新请求。

聚合服务:对数据的I/O请求;自动分段以处理大量数据。

非结构化数据云存储平台中的HDFS架构如图5所示。其功能如下:

NameNode节点是控制节点。可以将其视为HDFS的管理器。工作内容包括:管理文件系统名称空间,集群配置和存储块复制。存储节点是数据存储的基本单元。通过将数据以块模式存储到本地文件系统,可以将所有块信息及时准确地发送到控制节点。 MongoDB客户端是获取分布式文件系统的应用程序。通过开源的Hadoop非结构化数据云存储平台,用户可以在云平台上存储大量非结构化数据。 HDFS可用于存储PB级数据,但数据访问延迟高,不适合存储小文件。 MongoDB存储海量数据的元数据,从而可以进行实时读写,从而弥补了HDFS的缺点。

6结论

本文分析了Internet发展的现状,重点代表MongoDB数据库模型介绍了当前流行的NoSQL数据库的模型,特征及其分布式存储架构,并根据大数据云存储详细介绍了大数据云平台技术的特征。针对平台和非结构化数据库本身,设计了基于MongoDB和HDFS的非结构化数据云存储服务体系结构。针对非结构化数据元数据的特性和MongoDB的存储特性,将MongoDB部署到Hadoop平台上以存储非结构化数据的元数据信息,而将非结构化数据作为文件存储在HDFS系统中。当HDFS响应小文件的存储应用程序时,这可以减少由于名称节点内存不足而导致的性能瓶颈。在本文的最终设计中,验证了该平台的可行性。实验数据证明了改进方案的有效性和有效性。

最新论文
互联网时代下的网络营销课程混合式教学模式分析
关于数字校园转型智慧校园的研究
关于我国建材行业市场经济效益的相关研究
关于数字校园转型智慧校园的研究
《软件体系结构》课程教学改革探讨
关于我国建材行业市场经济效益的相关研究
云平台下的NoSQL分布式大数据存储技术与应用
关于我国建材行业市场经济效益的相关研究
关于浓缩水对反渗透系统的影响作用及其回收利用
关于数字校园转型智慧校园的研究
关于我国建材行业市场经济效益的相关研究
关于数字校园转型智慧校园的研究
热门论文
MBA市场营销案例教学实施模式的优化研究
互联网时代下的网络营销课程混合式教学模式分析
关于工商企业管理专业VBSE综合版实训课程实践教学体系建构研究
体育训练促进农村中学生心理健康的作用
探究性学习在高中思想政治学科中的运用策略
高职教改中职业技能竞赛的运用
小学数学教师课堂中的探索性与趣味性策略
探讨微信在初中班主任德育工作中的作用
ZigBee技术在LED灯控制中的应用研究
依法治国基础上市场经济的法律体系完善探究
依法治国基础上市场经济的法律体系完善探究
中等师范学校思想政治课教学中存在的问题及其对策研究
热门标签
日期归档
2019年10月
2019年09月