hadoop 各种概念整理

  • 时间:
  • 浏览:0



块相对较大,主什么都有有我把寻道时间最小化。肯能一个块足够大,从硬盘传输数据的时间将远远大于寻找块起始位置的时间。原来使得HDFS的数据块速率和硬盘的传输速率更加接近。

① fsimage (文件系统镜像):元数据镜像文件。存储某一二十四时NameNode内存元数据信息。

Hadoop在创建新文件时是怎么才能 才能 选择 block的位置的呢,综合来说,要考虑以下因素:速率(包括写速率和读速率)和数据安全性。肯能亲戚亲戚朋友把一个备份完整性倒进一个datanode上,我我觉得要能处里了写速率的消耗,但几乎这样提供数据冗余带来的安全性,肯能肯能某些datanode当机,这样某些文件的所有数据就完整性丢失了。原来极端状态是,肯能把一个冗余备份完整性倒进不同的机架,甚至数据中心上面,我我觉得原来数据会安全,但写数据会消耗什么都有有的速率。Hadoop 0.17.0给亲戚亲戚朋友提供了一个默认replica分配策略(Hadoop 1.X完后 允许replica策略是可插拔的,也就在等我能 此人 制定此人 须要的replica分配策略)。replica的默认分配策略是把第一个备份倒进与客户端相同的datanode上(肯能客户端在集群外运行,就随机选择 一个datanode来存放第一个replica),第一个replica倒进与第一个replica不同机架的一个随机datanode上,第一个replica倒进与第一个replica相同机架的随机datanode上。肯能replica数大于三,则后后 的replica在集群中随机存放,Hadoop会尽量处里不要 的replica存倒进同一个机架上。

 

DataNode

  (1)序列化层:Clent与Server端通信传递的信息采用了Hadoop里提供的序列化类或自定义的Writable类型;

HDFS默认的Block为64MB/128MB?

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xmt1139057136/article/details/82717144

一群独立计算机集合一起去对外提供服务,否则对于系统的用户来说,就像是一台计算机在提供服务一样。分布式由于要能采用更多的普通计算机(相对于昂贵的大型机)组成分布式集群对外提供服务。计算机不要 ,CPU、内存、存储资源等也就不要 ,要能处里的并发访问量也就越大。

数据访问速率

6) 在系统的正常操作期间,namenode会在内存中保留所有块位置的映射信息

5) 系统中的数据块的位置也有 有namenode维护的,什么都有有我以块列表的形式存储在datanode中(datanode启动汇报的)

7)在安全模式下,各个datanode会向namenode发送块列表的最新状态

③ fstime: 保存最近一次checkpoint的时间

文件owership和permissions

保存Block,每个块对应一个元数据信息文件。某些文件主要描述某些块属于哪个文件,第十几个 块等信息。

集中式系统用说说概括什么都有有我:一个主机带多个终端。终端这样数据处都还能不能力,仅负责数据的录入和输出。而运算、存储等完整性在主机上进行。现在的银行系统,大主次也有 某些集中式的系统,此外,在大型企业、科研单位、军队、政府等也有 分布。集中式系统,主要流行于上个世纪。

磁盘IO称为有一种瓶颈,而非CPU资源

rack

NameNode的作用是管理文件目录特性,接受用户的操作请求,是管理数据节点的,是一个jetty服务器。名字节点维护两套数据, 一套是文件目录与数据块之间的关系 , 另一套是数据块与节点之间的关系 。 前一套 数据是 静态的 ,是存倒进磁盘上的, 通过fsimage和edits文件来维护 ; 后一套 数据是 动态的 ,不持久倒进到磁盘的,每当集群启动的完后 ,会自动建立哪些信息,什么都有有一般都倒进内存中。

关系型数据使用的是特性化数据,在数据库阶段按具体类型处里数据。关系型数据的规范性非常重要,保持数据的完整性性,一致性。

海量数据须要深入分析和挖掘

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。

磁盘寻址时间提高速率远远小于数据传输速率提高速率(寻址是将磁头移动到特定硬盘位置进行读写操作,这由于硬盘操作延迟的主要由于,而传输速率取决于硬盘的速率)。对于超大规模数据(以PB为单位)须要考虑使用某些妙招。关系型数据库使用B树特性进行数据的更新查询操作,对于最大到GB的数据量,一般相对数据量较小,效果很好。否则大数据量时,B树使用排序/合并妙招重建数据库以更新数据的速率远远低于MapReduce。

进入安全模式(hadoop启动的完后 是在安全模式) 

hadoop dfsadmin -sagemode enter

Secondary NameNode(辅助元数据信息)

HDFS有高容错性的特点,否则设计用来部署在低廉的(low-cost)硬件上;否则它提供高吞吐量(high throughput)来访问应用系统系统进程的数据,适合哪些有着超大数据集(large data set)的应用系统系统进程。HDFS放宽了(relax)POSIX的要求,要能以流的形式访问(streaming access)文件系统中的数据。

NameNode决定与非 将文件映射到DataNode的qq克隆好友 块上:多副本,默认一个,第一个qq克隆好友 块存储在同一机架的不同节点上,最后一个qq克隆好友 块存储到不同机架的某个节点上。

NameNode的metadata信息在启动也有加载到内存中

4) 此刻namenode运行在安全模式,即namenode的文件系统对于客户端来说是只读的。(要能显示目录,显示文件内容等;写,删除,重命名等操作也有失败)

类似于 一个Metadata

  (3)网络传输层:Hadoop RPC采用了基于TCP/IP的socket机制;

DataNode的作用是HDFS中真正存储数据的。

假设文件大小是400GB,从字节位置0现在后后后后开始,每64MB字节划分为一个block,依此类推,要能划分出什么都有有的block。每个block什么都有有我64MB大小。block是hdfs读写数据的基本单位。

(structured data):是具体既定格式的实体化数据,如XML文档或满足特定预定义格式的数据库表。这是RDBMS包括的内容。 

半特性化数据

一个hadoop文件什么都有有我由一系列分散在不同的DataNode上的block组成。

8) 进入和一蹶不振 安全模式

linux中每个磁盘有默认的数据块大小,这是对磁盘操作的最小单位,通常512字节。HDFS同样也有 块(Block)的概念,默认64MB/128MB,比磁盘块大得多。与单一的文件系统类似于 ,HDFS上的文件系统也被划分成多个分块(Chunk)作为独立的存储单元。

HDFS采用master/slave架构 

 

  reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只一个或零个值)。

 

转自:http://www.cnblogs.com/gisorange/p/4328859.html

② edits: 操作日志文件。

转自:http://www.cnblogs.com/beanmoon/archive/2012/12/17/2821548.html

DataNode的作用:

硬件故障成为影响稳定的一大因素

一蹶不振 安全模式 

hadoop dfsadmin -sagemode leave

 

系统中的若干台计算机要能互相合作协议协议来完成一个一起去的任务,肯能说一个系统系统进程要能分布在几台计算机上并行地运行。

数据特性不同

通过向NameNode发送心跳保持与其联系(3秒一次),肯能NameNode 10分钟这样收到DataNode的心跳,认为其肯能lost,并将其上的Blockqq克隆好友 到其它的DataNode.

网络速率是有一种稀缺资源

3) NameNode现在后后后后开始监听RPC和HTTP请求

Block保居于哪个DateNode(由DataNode启动时上报给)

文件暗含 哪些块

文件包括:

2) 一旦在内存中成功建立文件系统元数据的映射,则创建一个新的fsimage文件(某些操作无须SecondaryNameNode)和一个空的日志edits文件

hadoop写文件

在分布式文件系统自动的完后 ,现在后后后后开始也有有安全模式,当分布式文件系统居于安全模式的状态下,文件系统中不允许有上传,修改,删除等写操作,非要读,直到安全模式现在后后后后开始。

  (4)服务器端框架层:RPC Server利用java NIO以及采用了事件驱动的I/O模型,提高RPC Server的并发处都还能不能力;

MapReduce 线性,可伸缩性编程

随着计算技术的发展,某些应用须要非常巨大的计算能力要能完成,肯能采用集中式计算,须要耗费相当长的时间来完成。分布式计算将该应用分解成某些小的主次,分配给多台计算机进行处里。原来要能节约整体计算时间,大大提高计算速率。

 map函数:接受一个键值对(key-value pair),产生一组上面键值对。MapReduce框架会将map函数产生的上面键值对里键相同的值传递给一个reduce函数。

Hadoop处里哪些大疑问?

海量数据存储的大疑问:

 

Hadoop的框架最核心的设计什么都有有我:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

系统中任意两台计算机都要能通过通信来交换信息。

(semi-structured data):比较松散,我我觉得肯能有格式,否则老会 被忽略,什么都有有他非要作为对的一般指导。如:一张电子表格,其特性是由单元格组成的网格,否则每个单元格自身可保存任何形式的数据。 

非特性化数据

1) namenode启动的完后 ,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作

hadoop读取文件

数据块

查看namenode居于哪个状态 

hadoop dfsadmin -sagemode get

NameNode 元数据节点

海量数据须要及二十四时析和处里

同某些RPC框架一样,Hadoop RPC分为一个主次:

 

一个Block的副本会保存到一个或一个以上的机架上的服务器中,原来能防灾容错,肯能一个机架老会 冒出掉电,交换机挂了的概率还是很高的。

集中式系统的最大的特点什么都有有我部署特性非常简单,底层一般采用从IBM、HP等厂商购买到的昂贵的大型主机。否则无需考虑怎么才能 才能 对服务进行多节点的部署,也就无需考虑各节点之间的分布式合作协议协议大疑问。否则,肯能采用单机部署。很肯能带来系统大而简化、难于维护、居于单点故障(单个点居于故障的以也有波及到整个系统肯能网络,从而由于整个系统肯能网络的瘫痪)、扩展性差等大疑问。

感谢您的关注!可加QQ1群:1354400763,QQ2群:454796847,QQ3群:187424846。QQ群进群密码:xttblog,想加微信群的亲戚亲戚朋友,要能微信搜索:xmtxtt,备注:“xttblog”,加进助理微信拉你进群。备注错误无需同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至534009913@qq.com邮箱。合作协议协议协议可加进助理微信进行沟通!

分布式系统中的多台计算机之间在空间位置要要能随意分布,系统中的多台计算机之间这样主、从之分,即这样控制整个系统的主机,也这样受控的从机。

系统系统进程员须要编写 map函数 和 reduce函数。每个函数定义从一个键值对集合到原来键值对集合的映射。

  (2)函数调用层:Hadoop RPC通过动态代理以及java反射实现函数调用;

NameNode保存文件metadata信息,包括:

一个标准的分布式系统应该具有以下十几个 主要特性:

 

它也有 NameNode的热备份,要能作为一个冷备份 

* 将本地保存的fsimage导入 

* 修改cluster的所有DataNode的NameNode地址 

* 修改所有client端的NameNode地址 

* 肯能修改Secondary NameNode IP为 NameNode IP

系统资源被所有计算机共享。每台计算机的用户不仅要能使用本机的资源,还要能使用本分布式系统中某些计算机的资源(包括CPU、文件、打印机等)。

Secondary NameNode是一个用来监控HDFS状态的辅助后台系统系统进程。定期的将Namespace镜像与操作日志文件(edit log)合并,以处里操作日志文件(edit log)变得过大;能减少NameNode启动时间。

数据须要长期保存

放服务器的支架。

大型网站常常须要处里海量数据,单台计算机往往无法提供足够的内存空间,要能对哪些数据进行分布式存储。

启动DataNode系统系统进程的以也有向NameNode汇报Block信息