大数据概论】【大数据基础】HDFS由什么组成?

2020-10-19 19:01发布

6条回答
赵小刀
2楼 · 2020-10-19 21:10

HDFS命名空间采用层次化(树状——译者注)的结构存放文件和目录。文件和目录用NameNode上的inodes表示。Inode记录了权限,修改和访问时间,命名空间,磁盘容量等属性。文件内容会被分成不同的“大块”(典型分块策略是每块128M,不过用户可以对每个文件的分块大小进行选择)。NameNode负责维护命名空间树以及与DataNode上文件分块的映射关系。目前采用的设计结构是,没一个集群只有一个NameNode,一个NameNode可以对应多个DataNode以及成千上万的HDFS客户端。一个DataNode可以同步执行多个应用任务。

哆啦公
3楼 · 2020-10-19 22:17

1.Client客户端 2. NameNode主节点 3. SecondaryNameNode 

我想吃肉
4楼 · 2020-10-20 08:54

HDFS命名空间采用层次化(树状——译者注)的结构存放文件和目录。文件和目录用NameNode上的inodes表示。Inode记录了权限,修改和访问时间,命名空间,磁盘容量等属性。文件内容会被分成不同的“大块”(典型分块策略是每块128M,不过用户可以对每个文件的分块大小进行选择)。NameNode负责维护命名空间树以及与DataNode上文件分块的映射关系。目前采用的设计结构是,没一个集群只有一个NameNode,一个NameNode可以对应多个DataNode以及成千上万的HDFS客户端。一个DataNode可以同步执行多个应用任务。

魏魏姐
5楼 · 2020-10-20 09:44

hadoop 的datanode上存储多少数据就是由该datanode的磁盘空间决定的,配置文件中dfs.data.dir参数指定了hdfs数据存放目录(多个目录由逗号分隔),设置好该参数后,这个datanode节点的最大存储空间就由设定目录的空间决定。hadoop各个datanode节点的数据量基本是一致的,可以通过balancer.sh来平衡各个节点的空间利用率。

楠楠楠楠
6楼 · 2020-10-21 17:04

hadoop 的datanode上存储多少数据就是由该datanode的磁盘空间决定的,配置文件中dfs.data.dir参数指定了hdfs数据存放目录(多个目录由逗号分隔),设置好该参数后,这个datanode节点的最大存储空间就由设定目录的空间决定。hadoop各个datanode节点的数据量基本是一致的,可以通过balancer.sh来平衡各个节点的空间利用率。


我的网名不再改
7楼 · 2020-10-25 15:59

1. HDFS

1.1 特性

  • 支持超大文件

  • 检测和快速应对硬件故障

  • 流式数据访问

  • 简化的一致性模型

  • 低延迟数据访问

  • 大量潇的文件

  • 多用户写入、修改文件

1.2 体系结构

在这里插入图片描述

  • namenode: 分布式文件系统中的管理者,负责管理文件系统命名空间,集群配置和数据块复制。

  • datanode: 文件存储的基本单元,以数据块的形式保存HDFS中文件的内容和数据块的数据校验信息

  • 客户端和namenode,datanode通信,访问HDFS文件系统。

1.2.1 数据块

数据分块存储,默认大小64MB。

好处:

  • 存比磁盘大的文件

  • 简化了存储子系统

  • 方便容错,有利于数据复制。

1.2.2 namenode 和 secondarynamenode

namenode 维护文件系统的文件目录树,文件/目录的元信息和文件的数据块索引。

secondarynamenode配合namenode,提供了检查点机制。namenode发生故障时,减少停机时间并降低namenode元数据丢失的风险,不支持故障自动恢复。

1.2.3 datanode

  • 向namenode报告

  • 接收namenode的指令

1.3 HDFS主要流程

1.3.1 客户端到nanenode的文件与目录操作

创建子目录

在这里插入图片描述

删除子目录

在这里插入图片描述

  • 客户端发送删除指令给namenode之后,namenode并不会删除而是做标记

  • datanode 发送心跳时,才会把删除指令发送给相应的datanode

1.3.2 客户端读文件

在这里插入图片描述

1.3.3 客户端写文件

在这里插入图片描述

1.3.4 数据节点的启动和心跳

在这里插入图片描述

1.3.5 secondarynamenode 合并元数据

在这里插入图片描述


相关问题推荐

  • 回答 6

    大数据开发:1、负责公司大数据产品/项目的后台研发;2、负责技术预研,产品设计以及文档编写等工作;3、参与大数据的数据治理和数据处理相关java开发工作;4、参与海量数据处理,业务数据体系的设计、数据统计、分析及数据建模大数据开发要处理大规模的数据...

  • 回答 1

    修改log4j.properties文件中的:# Define the root logger to the system property plsql.root.logger.log4j.rootLogger=./sql.log# Logging Threshold to INFO for queryserver. root logger still at WARN for sqlline cl...

  • 回答 1

    如果没找到解决方法,最好的方法就是重装

  • 回答 1

    杀毒软件关了

  • 回答 2

    1、上传jar包到/opt/software/解压到/opt/module 改名为phoenix2、 复制server和client这俩个包拷贝到各个节点的hbase/lib在phoenix目录下3、向每个节点发送server jar4、向每个节点发送client jar5、在root权限下给/etc/profile 下添加如下内容6、启动Zookee...

  • 回答 1

    安装和配置Phoenix把下载好的安装包放入software目录下解压Phoenix到opt目录下[root@hadoop100 software]# tar -zxvf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt进入Phoenix的bin目录下把phoenix-4.14.0-cdh5.14.2-server.jar包复制到hbase目...

  • 回答 7

    phoenix是构建的Hbase之上的,使用标准的SQL操作Hbase,可以做联机事务处理,拥有低延迟的特性。phoenix会把SQL编译成一系列的Hbase的scan操作,然后把scan结果生成标准的JDBC结果集,其底层由于使用了Hbase的API,协处理器,过滤器,处理千万级行的数据也只...

  • 回答 3

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。...

  • 回答 2

    想考计算机相关证书或者想学技术的同学可以抓紧时间啦!双11更多优惠活动详情咨询18597153017(微信同号)

  • 回答 2

    一、Selector(选择器)Selector概述Selector(选择器)可以工作在复制或多路复用(路由) 模式下 。复制模式Selector复制模式-属性说明selector.type replicating 类型名称,默认是 replicatingselector.optional – 标志通道为可选Selector复制模式-案例 #命...

  • 回答 2

    (1)电子商务网站比如我们在做一个电子商务网站,然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信...

  • 回答 4

    HBase是一个构建在HDFS之上的、分布式的、支持多版本的NoSQL数据库,它的出现补齐了大数据场景下快速查询数据能力的短板。它非常适用于对平台中的热数据进行存储并提供查询功能。...

  • 回答 4

    HBase数据结构运行原理

  • 回答 6

    传统数据库存储B树 B+树 B-树传统关系型数据普通索引就是采用B+树的方式B+树最大的性能问题是会产生大量的随机IO,随着新数据的插入,叶子节点会慢慢分裂,逻辑上连续的叶子节点在物理上往往不连续,甚至分离的很远,但做范围查询时,会产生大量读随机IO;Hba...

  • 回答 7

    对象存储:我们知道不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中,一些病毒公司的病毒库也是存储在HBase之中时序数据:HBase之上有OpenTSDB模块,可以满足时序类场景的需求推荐画像:特别是用户的画像,是一个比较大的稀疏矩阵,蚂蚁的风控就是...

  • 回答 4

    Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件、socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现。Flume...

没有解决我的问题,去提问