大数据生态系统】离线数仓,实时数仓分别是什么?

2020-07-22 08:49发布

5条回答
wjmmjr
2楼 · 2020-07-22 14:24

离线是将一定时间内的数据统一处理后加入到数据仓库中,实时是每来一条数据处理一条并加入到数据仓库中,数据的时效性较高

白首有我共你
3楼 · 2022-08-22 17:21
虽然我是做报表和BI的,但是报表和BI的效果要好,数据底层很重要,数据架构也很重要,这就不可避免地会涉及到数据仓库。想要建立实时数据仓库,你肯定得知道:1、啥是数据仓库2、和数据库有什么区别3、实时的和传统的有哪些不同4、实时数仓的架构是什么5、怎么做这些问题,都抽象地有,哪个问题要解释清楚。
屋顶上的小猫咪
4楼 · 2022-08-22 17:21
谢邀。想要知道实时数据仓库怎么做,我们首先得知道,为什么要用实时数据仓库,也就是说我们得明白公司也好,企业也罢,他们要求我们做实时数据仓库的价值何在?目前的数据仓库大都是T+1离线分析数据,即运营人员今天看昨天的数据报表,当客户为店铺或者商品做活动并且想看当前的活动效果就只能等到明天来查看数据。而阿里每年的双11,几分钟完成上亿的交易量,他们更想知道的是双11这个活动带来的实际效益,当前最新的订单量、销售额等。实时数据仓库该怎么做?1.随着大家对数据及时性的要求越来越高,实时计算应景产生。常见的开源实时计算框架有storm、s4、spark等。使用过storm开发过实时需求的小伙伴都知道,storm对于单数据流的处理无论是开发难度或者处理执行效率都相当不错,即使有好多同样的任务跑也可以应付。2.实时通用宽表也常被用在实时需求中,大量的实时需求将在通用层得以计算实现。一般的做法就是ODS----明细表---通用宽表---汇总表---应用层。3.另外实时数据仓库相比较离线数仓,实时性要求更高,因此在做实时数据仓库时应注意缩短数据流,简化数据层次,将ods和明细表合并等。4.一定要与客户沟通好。一定要明确客户对我们实时数据仓库的实时性要求级别。客户能忍受的延迟是分钟级还是秒级等。5.数据库最忌讳数据不一致的情况。实时数据仓库也不例外,要是打算做实时数据仓库,一定要保证数据的准确一致性,不能丢数据,也不能出现脏数据的情况,宁可多存一些,也不要漏数据,出现数据丢失的被动局面。6.实时数据仓库一定要保证易用性对于实时数据的增、删、改,要使得下层使用这个宽表时简单易用,方便调用与查询,不然实时的意义何在?以上就是我对做实时数据仓库的一些方法和注意事项
蓝眼睛不忧郁
5楼 · 2022-08-22 17:21
数据仓库是对企业各类数据的汇总和规范化,能够屏蔽各业务系统之间的差异,提供统一的数据出口。通常情况下,数据仓库都要包括贴源层、明细层、汇总层和集市层或者贴源层、模型层、集市层等几个层次,并最终通过接口等方式提供数据给下游应用文系统使用。其中,贴源层是对源系统数据的直接复制,不做加工处理,往往通过卸数或者数据同步的方式实现,其他层次是基于贴源层数据跑批和逐步汇总抽象得来。目前,大多还是离线数据仓库,往往是T+1延迟,即T+1日凌晨卸载源系统T日日终的数据,然后跑批,将数据入模型入集市,并最终提供给下游应用系统,可以基于大数据平台,也可以基于Teradata等传统数据仓库来做。而所谓实时数据仓库就是能够提供实时的数据接口,延迟在支撑实时查询、实时报表等业务场景。要做到实时,一个是保障源系统数据入ODS的实时性,即构建实时ODS,往往通过OGG/CDC等数据同步方案实现,实时监控源系统数据库变化日志并实时同步至数据仓库。二是要确保数据模型和集市的效率,这时候TD等传统数据仓库就不太合适了,要在大数据平台上建模和跑批。现在完全实时的数据仓库还是比较困难的,一般还是离线数仓和实时ODS混搭,属于离线的就按日跑批,需要实时的就实时同步,这样能够提升效率,简化业务模型。
只想待在家
6楼 · 2022-08-22 17:21
想要做实时数据仓库,必须得了解数仓的构成以及如何选择对应的数仓组件。源数据(data)、数据抽取转换加载(etl)、联机查询分析(olap)是数仓构成的三大内容。下面一一解释:DATA源数据,包括各部门各业务库中的数据或者系统访问日志,或者其他形式存储的外部数据等等。可以使用maxwell或者flume来进行数据采集,具体根据数据源的存储形式来决定,比如如果是日志形式,可以使用flume;如果是mysql存储可以使用maxwell。ETL上面所说的数据采集便是ETL中的一个步骤,即"E"(Extract,数据抽取)这个步骤。一般采集的数据会先放进kafka中,然后通过Spark Streaming或者Flink或者Storm等流式数据处理框架进行简单数据处理(T:Transform)后加载(L:Load)到olap系统中。Spark Streaming、Flink、Storm对比如下,可根据企业自身情况进行选择:OLAP实时数仓用户使用的地方,一个高效的数据查询系统是必须的,而且得和ETL工具很般配,下面介绍两款:Druid:是一个大数据实时查询、分析,高容错,高性能的开源分布式系统。专门为OLAP而构建,支持各种过滤、聚合;快速的交互式查询,响应在毫秒级别;高可用以及高扩展性,可支持亿级处理数和TB级数据。Kudu:是应对快速变化数据的快速分析型数据库。高CPU利用率,高IO效率,支持数据原地更新。与Impala紧密集成,使用Cloudera Manager轻松维护和管理,OLAP工作的快速处理

相关问题推荐

没有解决我的问题,去提问