数据孤岛和数据沼泽是什么鬼?

2020-06-30 08:15发布

数据孤岛和数据沼泽是什么鬼?

数据孤岛和数据沼泽是什么鬼?

2条回答
无需指教
2楼 · 2020-06-30 08:33

数据仓库

据仓库是一种存储架构,旨在保存从多个数据源提取的数据,这些数据源包括操作数据存储、事务数据存储,以及企业内的部门数据集市。数据仓库将数据组合为一种聚合、摘要形式,适合于进行企业级数据分析以及针对业务需求定制报告

数据孤岛

数据孤岛在企业信息化中,还有很多类似的描述,如"数据的污染"等比较形象的说法,专业人士把数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是,数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤岛。

数据湖

数据湖是一种存储库,它以原生格式保存大量原始数据或细化的数据,以供按需访问。数据科学家越来越多地开始使用数据湖这个词来描述任何具有不明确的模式和数据需求的大型数据池。分析师仅在查询数据时定义这些参数。

AWS的定义,数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

aws-datalake-diagram-simplified

数据沼泽

数据沼泽是一种设计不良、未充分归档或未有效维护的数据湖。这些缺陷损害了检索数据的能力用户无法有效地分析和利用数据。尽管数据已经存在,但如果没有上下文元数据,数据沼泽就无法检索数据

 

数据湖和数据沼泽

数据湖概念已存在多年。它最初引起了一些争议,而且被贴上了营销炒作的标签。术语数据湖不是任何传统数据存储架构的一部分,所以供应商可以自由地使用它来表示许多不同的事物。

数据存储术语,比如流、池、储备库,在数据科学中也得到广泛使用。不可避免地,人们开始将其与天然水生态系统进行类比,所以现在我们还有了数据湖数据沼泽

类比对解释概念很有帮助,但始终存在着过度类比导致失败的危险。如果您是该领域的新人,不知道该术语的真实含义,类比还会让该术语变得混乱。但是,随着数据湖的概念慢慢被人们接受,一些人已经开始尝试定义一个架构来规范化这些概念。

尽管如此,我将使用另一种类比来解释这些概念。边栏给出了该术语的标准定义;后面的类比从概念上解释了它们。我的类比基于制作三明治(我为自己辩解一下,我是在午饭前写的这篇文章,而且我很饿)。我从一家食品杂货店开始类比,我们大部分人都是在食品杂货店购买三明治制作材料的。

一种简单类比

一个食品杂货店的员工在过道和货架上按类别分类和整齐地存放食品杂货。您可以轻松地选择和购买您想要的食品杂货。食品杂货店类似于将数据资产存储在表行和列中以方便检索的数据库。

商店存放的食品杂货是在不同时间从许多来源和供货商送来的,而且具有不同的保质期。类似地,数据可能在不同时间从多个数据源传入。数据也可能变得过时,就像食品杂货一样。像来自食品杂货店的组成三明治的许多原料一样,信息是在一个特定上下文中编目的数据集合。换言之,三明治类似于信息。

完整的绿色蔬菜类似于非结构化数据,切成小块的绿色蔬菜类似于结构化数据。(为了有效地类比,我假设完整的蔬菜是非结构化数据。)

现在,假设当地的三明治店从这家食品杂货店选择和购买食品杂货,清理并清洗食品杂货,将它们切碎以供在三明治中使用,并将它们分开存放 — 就像在用于分析之前对数据执行清理、结构化和规范化。

当您想吃一个三明治时,您会前往三明治店。三明治店还可以用不同的柜台来提供三明治、包裹物或色拉 — 类似于数据集市和数据仓库。就像一个柜台是三明治店的子集一样,数据集市是数据仓库的子集。一个数据集市对应于一个部门,而一个数据仓库对应于整个企业。

在三明治店,您会查看菜单并决定想要购买哪种三明治;然后订购它。三明治制作者按照相同的重复流程制作每个三明治;实际上,您可以找到一些已做好的、打包好的、可以立即享用的三明治。三明治店类似于与数据仓库相集成的商业智能 (BI) 工具的菜单。分析工具也使用重复性流程来生成报告,为用户提供一些封装好的报告供立即使用。

大部分人喜欢定制他们的三明治,要求更改原料份量,更改配菜,或者不放某些原料。类似地,通过 BI 工具,您可以选择特定数据来定制报告。就像可以向三明治制作者指定原料来制作自己的三明治那样,您也可以在 BI 菜单中指定数据和算法来创建定制分析报告。

现在,设想您是一位食品检查员,希望确保为制作三明治而准备的所有食品杂货都是未受污染的。另外,您还想确保用于准备食品的流程(包括清洗、清理和切块)是一致的,而且是在合格的卫生条件下执行的。在这种情况下,您需要对用于准备食品的流程进行审核,并定期检查食品准备区。

类似地,审核人员需要访问原始数据,验证数据准备流程中的数据没有由于转录、清理、格式化和规范化而受到污染。不同于三明治店中的食品杂货的情形,您可以复制和克隆数据。所以为了实现合规和执行审核,可以存储原始数据。

最初,数据湖指的是保存原始数据和非结构化数据(比如文本、图像、音频和视频)的数据储备库。但是,前面已经提到过,供应商为数据湖提供了其他定义。

继续前面的类比,设想一位挑剔的顾客对三明治柜台的容器中的原料来源和新鲜度产生怀疑。顾客可能还想在三明治中加点这家三明治店里没有的蔬菜或肉类。三明治店肯定不允许顾客到柜台后面准备自己的三明治,所以顾客没有选择,只能前往食品杂货店购买食品杂货并在自己的厨房中制作三明治。通常,专业分析师和数据科学家希望访问原始数据,而不是存储在数据仓库中的已准备好的聚合摘要数据:他们更愿意从来源获取最新的数据,以确保它的有效性和相关性。他们可能还希望看到数据的传入速度,这可能受准备过程中的屏蔽操作的影响。如果分析师希望看到数据仓库中未考虑的其他数据,他们可能想要直接访问原始数据库。数据湖不会直接访问原始数据,它保留原始数据库的克隆版本来满足这些访问需求,并在沙箱中执行新分析。

有时,一位美味三明治制作者可能会坚持从农民那里而不是食品杂货店获取新鲜的原料。在这种情况下,这位美味三明治制作者必须复制食品杂货店采购者的功能,这类似于来自物联网 (IoT) 设备等来源的实时数据。在这种情况下,数据湖必须对这些实时数据流执行提取、转换、加载 (ETL) 功能。

最后,设想一家低档的三明治店。柜台上的容器没有标签。蔬菜和肉胡乱混在一起,甚至三明治制作者也不确定最后一个容器中存放了哪种肉。客户可能会离开,因为他们不确定会获得哪种三明治。这类似于一个数据沼泽,也就是一种未得到有效维护的数据湖。数据就像无法辨识的肉,没有人可以确认一些数据的血统。用户无法访问有用的数据,因为数据沼泽没有适当地对元数据标签进行归档(或者更糟的是错误地进行了归档),或者一些数据的格式无法被集成的工具读取或被查询检索。


佐小一
3楼 · 2020-06-30 10:30


数据孤岛:

数据孤岛在企业信息化中,还有很多类似的描述,如"数据的污染"等比较形象的说法,专业人士把数据孤岛分为物理性和逻辑性两种。物理性的数据孤岛指的是,数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤岛。

数据沼泽

数据沼泽是一种设计不良、未充分归档或未有效维护的数据湖。这些缺陷损害了检索数据的能力,用户无法有效地分析和利用数据。尽管数据已经存在,但如果没有上下文元数据,数据沼泽就无法检索数据。


相关问题推荐

  • 什么是大数据时代?2021-01-13 21:23
    回答 100

    大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,而这个海量数据的时代则被称为大数据时代。随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结...

  • 回答 84

    Java和大数据的关系:Java是计算机的一门编程语言;可以用来做很多工作,大数据开发属于其中一种;大数据属于互联网方向,就像现在建立在大数据基础上的AI方向一样,他两不是一个同类,但是属于包含和被包含的关系;Java可以用来做大数据工作,大数据开发或者...

  • 回答 52
    已采纳

    学完大数据可以从事很多工作,比如说:hadoop 研发工程师、大数据研发工程师、大数据分析工程师、数据库工程师、hadoop运维工程师、大数据运维工程师、java大数据工程师、spark工程师等等都是我们可以从事的工作岗位!不同的岗位,所具备的技术知识也是不一样...

  • 回答 29

    简言之,大数据是指大数据集,这些数据集经过计算分析可以用于揭示某个方面相关的模式和趋势。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。大数据的特点:数据量大、数据种类多、 要求实时性强、数据所蕴藏的...

  • 回答 14

    tail -f的时候,发现一个奇怪的现象,首先 我在一个窗口中 tail -f test.txt 然后在另一个窗口中用vim编辑这个文件,增加了几行字符,并保存,这个时候发现第一个窗口中并没有变化,没有将最新的内容显示出来。tail -F,重复上面的实验过程, 发现这次有变化了...

  • 回答 18

    您好针对您的问题,做出以下回答,希望有所帮助!1、大数据行业还是有非常大的人才需求的,对于就业也有不同的岗位可选,比如大数据工程师,大数据运维,大数据架构师,大数据分析师等等,就业难就难在能否找到适合的工作,能否与你的能力和就业预期匹配。2、...

  • 回答 33

    大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新...

  • 回答 17

    最小的基本单位是Byte应该没多少人不知道吧,下面先按顺序给出所有单位:Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,按照进率1024(2的十次方)计算:1Byte = 8 Bit1 KB = 1,024 Bytes 1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576...

  • 回答 5

    MySQL是一种关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySQL的版本:针对不同的用户,MySQL分为两种不同的版本:MySQL Community Server社区版本,免费,但是Mysql不提供...

  • mysql安装步骤mysql 2022-05-07 18:01
    回答 2

    mysql安装需要先使用yum安装mysql数据库的软件包 ;然后启动数据库服务并运行mysql_secure_installation去除安全隐患,最后登录数据库,便可完成安装

  • 回答 5

    1.查看所有数据库showdatabases;2.查看当前使用的数据库selectdatabase();3.查看数据库使用端口showvariableslike'port';4.查看数据库编码showvariableslike‘%char%’;character_set_client 为客户端编码方式; character_set_connection 为建立连接...

  • 回答 5

    CREATE TABLE IF NOT EXISTS `runoob_tbl`(    `runoob_id` INT UNSIGNED AUTO_INCREMENT,    `runoob_title` VARCHAR(100) NOT NULL,    `runoob_author` VARCHAR(40) NOT NULL,    `submission_date` DATE,    PRI...

  • 回答 9

    学习多久,我觉得看你基础情况。1、如果原来什么语言也没有学过,也没有基础,那我觉得最基础的要先选择一种语言来学习,是VB,C..,pascal,看个人的喜好,一般情况下,选择C语言来学习。2、如果是有过语言的学习,我看应该一个星期差不多,因为语言的理念互通...

  • 回答 7

    添加语句 INSERT插入语句:INSERT INTO 表名 VALUES (‘xx’,‘xx’)不指定插入的列INSERT INTO table_name VALUES (值1, 值2,…)指定插入的列INSERT INTO table_name (列1, 列2,…) VALUES (值1, 值2,…)查询插入语句: INSERT INTO 插入表 SELECT * FROM 查...

  • 回答 5

    看你什么岗位吧。如果是后端,只会CRUD。应该是可以找到实习的,不过公司应该不会太好。如果是数据库开发岗位,那这应该是不会找到的。

  • 回答 7

    查找数据列 SELECT column1, column2, … FROM table_name; SELECT column_name(s) FROM table_name 

没有解决我的问题,去提问