9条回答

天天

2楼 · 2020-12-12 09:59

hbase写入流程：

1、Client 向 HregionServer 发送写请求;

2、HregionServer 将数据写到 HLog(write ahead log)。为了数据的持久化和恢复;

3、HregionServer 将数据写到内存(MemStore);

4、反馈 Client 写成功。

hbase数据读取流程：

1、Client 先访问 zookeeper，从 meta 表读取 meta表的位置，然后读取 meta 表中的数据。从meta中读取用户表的 region 信息;

2、根据 namespace、表名和 rowkey 在 meta 表中找到对应的 region 信息;

3、找到这个 region 对应的 regionserver;

4、查找对应的 region;

5、先从 MemStore 找数据，和 BlockCache(StoreFile缓存) 里面读取数据,如果BlockCache中没有读到则到StoreFile中读。

6、MemStore如果读到了数据，需要和 BlockCache(StoreFile)中的数据做版本对比，取最新版本结果返回给客户端

7、从StoreFile 里面读取的数据，先写入 BlockCache，再返回给客户端。

小小李兆佳

3楼 · 2020-12-12 14:10

和写流程相比，HBase读数据是一个更加复杂的操作流程，这主要基于两个方面的原因：其一是因为整个HBase存储引擎基于LSM-Like树实现，因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件；其二是因为HBase中更新操作以及删除操作实现都很简单，更新操作并没有更新原有数据，而是使用时间戳属性实现了多版本。删除操作也并没有真正删除原有数据，只是插入了一条打上”deleted”标签的数据，而真正的数据删除发生在系统异步执行Major_Compact的时候。很显然，这种实现套路大大简化了数据更新、删除流程，但是对于数据读取来说却意味着套上了层层枷锁，读取过程需要根据版本进行过滤，同时对已经标记删除的数据也要进行过滤。

敦敦宁

4楼 · 2020-12-13 10:49

一个HRegionServer会负责管理很多个region
一个*region包含很多个store一个列族就划分成一个store**如果一个表中只有1个列族，那么每一个region中只有一个store如果一个表中有N个列族，那么每一个region中有N个store
一个store里面只有一个memstorememstore是一块内存区域，写入的数据会先写入memstore进行缓冲，然后再把数据刷到磁盘
一个store里面有很多个StoreFile, 最后数据是以很多个HFile这种数据结构的文件保存在HDFS上StoreFile是HFile的抽象对象，如果说到StoreFile就等于HFile每次memstore刷写数据到磁盘，就生成对应的一个新的HFile文件出来
2、HBase数据读流程说明：HBase集群，只有一张meta表，此表只有一个region，该region数据保存在一个HRegionServer上
1、客户端首先与zk进行连接；从zk找到meta表的region位置，即meta表的数据存储在某一HRegionServer上；客户端与此HRegionServer建立连接，然后读取meta表中的数据；meta表中存储了所有用户表的region信息，我们可以通过scan 'hbase:meta'来查看meta表信息
2、根据要查询的namespace、表名和rowkey信息。找到写入数据对应的region信息
3、找到这个region对应的regionServer，然后发送请求
4、查找并定位到对应的region
5、先从memstore查找数据，如果没有，再从BlockCache上读取HBase上Regionserver的内存分为两个部分一部分作为Memstore，主要用来写；另外一部分作为BlockCache，主要用于读数据；
6、如果BlockCache中也没有找到，再到StoreFile上进行读取从storeFile中读取到数据之后，不是直接把结果数据返回给客户端，而是把数据先写入到BlockCache中，目的是为了加快后续的查询；然后在返回结果给客户端。

3. HBase写数据流程

1、客户端首先从zk找到meta表的region位置，然后读取meta表中的数据，meta表中存储了用户表的region信息
2、根据namespace、表名和rowkey信息。找到写入数据对应的region信息
3、找到这个region对应的regionServer，然后发送请求
4、把数据分别写到HLog（write ahead log）和memstore各一份
5、memstore达到阈值后把数据刷到磁盘，生成storeFile文件
6、删除HLog中的历史数据

补充：
HLog（write ahead log）：
    也称为WAL意为Write ahead log，类似mysql中的binlog,用来做灾难恢复时用，HLog记录数据的所有变更,一旦数据修改，就可以从log中进行恢复。

4、HBase的flush机制

4.1、flush触发条件

4.1.1、memstore级别限制

当Region中任意一个MemStore的大小达到了上限（hbase.hregion.memstore.flush.size，默认128MB），会触发Memstore刷新。


    hbase.hregion.memstore.flush.size
    134217728

4.1.2 、region级别限制

当Region中所有Memstore的大小总和达到了上限（hbase.hregion.memstore.block.multiplierhbase.hregion.memstore.flush.size，默认 2 128M = 256M），会触发memstore刷新。


    hbase.hregion.memstore.flush.size
    134217728


    hbase.hregion.memstore.block.multiplier
    2

4.1.3、Region Server级别限制

当一个Region Server中所有Memstore的大小总和超过低水位阈值hbase.regionserver.global.memstore.size.lower.limit*hbase.regionserver.global.memstore.size（前者默认值0.95），RegionServer开始强制flush；
先Flush Memstore最大的Region，再执行次大的，依次执行；
如写入速度大于flush写出的速度，导致总MemStore大小超过高水位阈值hbase.regionserver.global.memstore.size（默认为JVM内存的40%），此时RegionServer会阻塞更新并强制执行flush，直到总MemStore大小低于低水位阈值


    hbase.regionserver.global.memstore.size.lower.limit
    0.95


    hbase.regionserver.global.memstore.size
    0.4

4.1.4、HLog数量上限

当一个Region Server中HLog数量达到上限（可通过参数hbase.regionserver.maxlogs配置）时，系统会选取最早的一个 HLog对应的一个或多个Region进行flush

4.1.5、定期刷新Memstore

默认周期为1小时，确保Memstore不会长时间没有持久化。为避免所有的MemStore在同一时间都进行flush导致的问题，定期的flush操作有20000左右的随机延时。

4.1.6、手动flush

用户可以通过shell命令flush ‘tablename’或者flush ‘region name’分别对一个表或者一个Region进行flush。

4.2、flush的流程

为了减少flush过程对读写的影响，将整个flush过程分为三个阶段：prepare阶段：遍历当前Region中所有的Memstore，将Memstore中当前数据集CellSkipListSet做一个快照snapshot；然后再新建一个CellSkipListSet。后期写入的数据都会写入新的CellSkipListSet中。prepare阶段需要加一把updateLock对写请求阻塞，结束之后会释放该锁。因为此阶段没有任何费时操作，因此持锁时间很短。flush阶段：遍历所有Memstore，将prepare阶段生成的snapshot持久化为临时文件，临时文件会统一放到目录.tmp下。这个过程因为涉及到磁盘IO操作，因此相对比较耗时。commit阶段：遍历所有Memstore，将flush阶段生成的临时文件移到指定的ColumnFamily目录下，针对HFile生成对应的storefile和Reader，把storefile添加到HStore的storefiles列表中，最后再清空prepare阶段生成的snapshot。

5、Compact合并机制

hbase为了==防止小文件过多==，以保证查询效率，hbase需要在必要的时候将这些小的store file合并成相对较大的store file，这个过程就称之为compaction。
在hbase中主要存在两种类型的compaction合并==minor compaction 小合并====major compaction 大合并==

4.3.1 minor compaction 小合并

在将Store中多个HFile合并为一个HFile在这个过程中会选取一些小的、相邻的StoreFile将他们合并成一个更大的StoreFile，对于超过了TTL的数据、更新的数据、删除的数据仅仅只是做了标记。并没有进行物理删除，一次Minor Compaction的结果是更少并且更大的StoreFile。这种合并的触发频率很高。
minor compaction触发条件由以下几个参数共同决定：



    hbase.hstore.compactionThreshold
    3




    hbase.hstore.compaction.max
    10




    hbase.hstore.compaction.min.size
    134217728




    hbase.hstore.compaction.max.size
    9223372036854775807

4.3.2 major compaction 大合并

合并Store中所有的HFile为一个HFile将所有的StoreFile合并成一个StoreFile，这个过程还会清理三类无意义数据：被删除的数据、TTL过期数据、版本号超过设定版本号的数据。合并频率比较低，默认7天执行一次，并且性能消耗非常大，建议生产关闭(设置为0)，在应用空闲时间手动触发。一般可以是手动控制进行合并，防止出现在业务高峰期。
major compaction触发时间条件 hbase.hregion.majorcompaction 604800000
手动触发##使用major_compact命令 major_compact tableNamehbase.hregion.majorcompaction604800000
手动触发##使用major_compact命令 major_compact tableName

善良的琼琼姐

5楼 · 2020-12-13 17:34

1、Client 向 HregionServer 发送写请求;

2、HregionServer 将数据写到 HLog(write ahead log)。为了数据的持久化和恢复;

3、HregionServer 将数据写到内存(MemStore);

4、反馈 Client 写成功。

小鹿姐姐

6楼 · 2020-12-13 21:46

HBase 的核心模块是 Region 服务器。Region 服务器由多个 Region 块构成，Region 块中存储一系列连续的数据集。Region 服务器主要构成部分是 HLog 和 Region 块。HLog 记录该 Region 的操作日志。

Region 对象由多个 Store 组成，每个 Store 对应当前分区中的一个列族，每个 Store 管理一块内存，即 MemStoreo 当 MemStore 中的数据达到一定条件时会写入 StoreFile 文件中，因此每个 Store 包含若干个 StoreFile 文件。StoreFile 文件对应 HDFS 中的 HFile 文件。

嘿呦嘿呦拔萝卜

7楼 · 2020-12-14 13:47

hbase数据读取流程：

1、Client 先访问 zookeeper，从 meta 表读取 meta表的位置，然后读取 meta 表中的数据。从meta中读取用户表的 region 信息;

2、根据 namespace、表名和 rowkey 在 meta 表中找到对应的 region 信息;

3、找到这个 region 对应的 regionserver;

4、查找对应的 region;

5、先从 MemStore 找数据，和 BlockCache(StoreFile缓存) 里面读取数据,如果BlockCache中没有读到则到StoreFile中读。

6、MemStore如果读到了数据，需要和 BlockCache(StoreFile)中的数据做版本对比，取最新版本结果返回给客户端

7、从StoreFile 里面读取的数据，先写入 BlockCache，再返回给客户端。

hbase写入流程：

1、Client 向 HregionServer 发送写请求;

2、HregionServer 将数据写到 HLog(write ahead log)。为了数据的持久化和恢复;

3、HregionServer 将数据写到内存(MemStore);

4、反馈 Client 写成功。

用户555666

8楼 · 2020-12-14 17:08

HBase读数据是一个更加复杂的操作流程，这主要基于两个方面的原因：其一是因为整个HBase存储引擎基于LSM-Like树实现，因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件;其二是因为HBase中更新操作以及删除操作实现都很简单，更新操作并没有更新原有数据，而是使用时间戳属性实现了多版本。删除操作也并没有真正删除原有数据，只是插入了一条打上”deleted”标签的数据，而真正的数据删除发生在系统异步执行Major_Compact的时候。很显然，这种实现套路大大简化了数据更新、删除流程，但是对于数据读取来说却意味着套上了层层枷锁，读取过程需要根据版本进行过滤，同时对已经标记删除的数据也要进行过滤。

我的网名不再改

9楼 · 2020-12-20 15:43

1 概述

HBASE是一个数据库----可以提供数据的实时随机读写

HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同，它是一个NoSQL数据库（非关系型数据库）

Hbase的表模型与关系型数据库的表模型不同：
Hbase的表没有固定的字段定义；
Hbase的表中每行存储的都是一些key-value对
Hbase的表中有列族的划分，用户可以指定将哪些kv插入哪个列族
Hbase的表在物理存储上，是按照列族来分割的，不同列族的数据一定存储在不同的文件中
Hbase的表中的每一行都固定有一个行键，而且每一行的行键在表中不能重复
Hbase中的数据，包含行键，包含key，包含value，都是byte[ ]类型，hbase不负责为用户维护数据类型
HBASE对事务的支持很差

HBASE相比于其他nosql数据库(mongodb、redis、cassendra、hazelcast)的特点：

Hbase的表数据存储在HDFS文件系统中

从而，hbase具备如下特性：存储容量可以线性扩展；数据存储的安全性可靠性极高！

2 读流程

1）Client先访问zookeeper，从meta表读取region的位置，然后读取meta表中的数据。meta中又存储了用户表的region信息；

2）根据namespace、表名和rowkey在meta表中找到对应的region信息；

3）找到这个region对应的regionserver；

4）查找对应的region；

5）先从MemStore找数据，如果没有，再到BlockCache里面读；

6）BlockCache还没有，再到StoreFile上读(为了读取的效率)；

7）如果是从StoreFile里面读取的数据，不是直接返回给客户端，而是先写入BlockCache，再返回给客户端。

3 写流程

1）Client向HregionServer发送写请求；

2）HregionServer将数据写到HLog（write ahead log）。为了数据的持久化和恢复；

3）HregionServer将数据写到内存（MemStore）；

4）反馈Client写成功。

1 2 下一页

【HBase】【hbase基础】hbase的读写流程基本原理

3. HBase写数据流程

4、HBase的flush机制

4.1、flush触发条件

4.1.1、memstore级别限制

4.1.2 、region级别限制

4.1.3、Region Server级别限制

4.1.4、HLog数量上限

4.1.5、定期刷新Memstore

4.1.6、手动flush

4.2、flush的流程

5、Compact合并机制

4.3.1 minor compaction 小合并

4.3.2 major compaction 大合并

1 概述

2 读流程

3 写流程

相关问题推荐

等你来答

热门问答

相关文章

【HBase】【hbase基础】hbase的读写流程基本原理

3. HBase写数据流程

4、HBase的flush机制

4.1、flush触发条件

4.1.1、memstore级别限制

4.1.2 、region级别限制

4.1.3、Region Server级别限制

4.1.4、HLog数量上限

4.1.5、定期刷新Memstore

4.1.6、手动flush

4.2、flush的流程

5、Compact合并机制

4.3.1 minor compaction 小合并

4.3.2 major compaction 大合并

1 概述

2 读流程

3 写流程

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间