2020-08-25 08:58发布
对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。
对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。
要进行成功的元数据集成,必须建立一个一致且合理的管理策略,共享和重用指定目标和需求。
全局安全策略。
元数据是一个具有高敏感性和战略价值的信息财富,必须包含一个全面的安全策略来保证元数据得到充分保护
对每个元数据元素语义的一致理解。
软件组件所用到的每一种元数据元素的语义必须存在一致,这直接影响到元数据的共享和重用。
每个元数据的所有权。
必须确定哪些个体或哪些组件是一个特定元数据元素的最终所有者。要确保元数据的所有权最终属于元数据的
主要项目相关人员,而不是属于数据仓库的技术管理员或者开发者。
元数据元素的版本控制。必须为被管理的元数据设立专门的版本控制规则。
手工过程的消除机制和冗余元数据的消除机制。
任何依赖人工干预的元数据集成解决方案对整个数据仓库的投资回报率都有一个动态的负面的影响,
应该找出目前所有的手动过程,并提出一个最终能使它们自动的计划。
另外,必须尽量消除元数据冗余以最大程度共享和重用元数据
Flume简介 Flume 是Cloudera(就是CDH的那个公司) 开发的实时日志收集系统,它是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以根据需求接收不同的数据类型,同时将接收的数据发送到其他的具有接收能力或者处理能力的地...
离线是将一定时间内的数据统一处理后加入到数据仓库中,实时是每来一条数据处理一条并加入到数据仓库中,数据的时效性较高
分层是数据仓库解决方案中,数据架构设计的一种数据逻辑结构 ,通过分层理念建立的数据仓库,它的可扩展性非常好,这样设计出来的模型架构,可以任意地增减、替换数据仓库中的各个组成部分。数据仓库分层的原因1、用空间换时间,通过数据预处理提高效率,通过...
兰州是二线城市,大数据发展不如一线城市,但是发展还是不错的,尤其兰州新区最近几年发展势头很高,所以说找工作以及未来的发展还是很不错的。现在大数据正式火爆的时候,所以现在学习还来的及,未来三到五年是大数据发展最为快速的时期。...
首先,从架构上,实时数仓与离线数仓有比较明显的区别,实时数仓以Kappa架构为主,而离线数仓以传统大数据架构为主。Lambda架构可以认为是两者的中间态。其次,从建设方法上,实时数仓和离线数仓基本还是沿用传统的数仓主题建模理论,产出事实宽表。另外实时...
Jdk的安装及配置Mysql5.5安装安装maven :本人使用的是idea自带的maven工具。
你的意思是采用java语言编写的那些大数据工具吧,比如hadoop、flume、zookeeper,这些的话,每个人对难易的感受是不一样的,个人感觉不是学起来不是太难,但是要把握学习的深度,不要死抠底层,问题就不是很大...
学习大数据一定要先学习java,因为大数据的好多软件、工具、环境都是基于java的,比如hadoop、zookeeper、flume,sqoop等。所以有java基础后,再学大数据是个锦上添花的事情,后期再学习大数据会比较轻松一点。...
如果直接去单位的话还是相对来说有一定的困难,但是还是能够做一点大数据的其他岗位但是还是需要自己的努力程度吧,对于技术的专研程度
目前大数据获得国家的大力支持,目前数据量呈爆发式的增长,数据是什么,其实就是稀缺资源,手里掌握了数据就掌握着信息,有了这个东西对公司的决策发展是有重要影响的。对公司来说这个人才是很稀缺的。...
不是说需要一个啥基础 个人感觉这个跟文理科关系不算大 只要自己想去学习 找一个好的机构 踏踏实实的学习就完事了 剩下的都不是问题
大数据的内容相比较来说还是比较多的,例如:javase、数据库、linux操作系统、Hadoop基础内容
一、数据科学与大数据技术专业该专业致力于培养掌握数学、计算机、统计等数据科学相关领域基础理论知识,以及数据建模、机器学习、并行与分布式计算、统计推断等方法和技术,从事数据建模、数据分析与挖掘算法等问题的研究和大数据系统开发的研究型和技术型人...
最多设置5个标签!
对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。
对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。
元数据管理的策略:
要进行成功的元数据集成,必须建立一个一致且合理的管理策略,共享和重用指定目标和需求。
全局安全策略。
元数据是一个具有高敏感性和战略价值的信息财富,必须包含一个全面的安全策略来保证元数据得到充分保护
对每个元数据元素语义的一致理解。
软件组件所用到的每一种元数据元素的语义必须存在一致,这直接影响到元数据的共享和重用。
每个元数据的所有权。
必须确定哪些个体或哪些组件是一个特定元数据元素的最终所有者。要确保元数据的所有权最终属于元数据的
主要项目相关人员,而不是属于数据仓库的技术管理员或者开发者。
元数据元素的版本控制。必须为被管理的元数据设立专门的版本控制规则。
手工过程的消除机制和冗余元数据的消除机制。
任何依赖人工干预的元数据集成解决方案对整个数据仓库的投资回报率都有一个动态的负面的影响,
应该找出目前所有的手动过程,并提出一个最终能使它们自动的计划。
另外,必须尽量消除元数据冗余以最大程度共享和重用元数据
相关问题推荐
Flume简介 Flume 是Cloudera(就是CDH的那个公司) 开发的实时日志收集系统,它是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以根据需求接收不同的数据类型,同时将接收的数据发送到其他的具有接收能力或者处理能力的地...
离线是将一定时间内的数据统一处理后加入到数据仓库中,实时是每来一条数据处理一条并加入到数据仓库中,数据的时效性较高
分层是数据仓库解决方案中,数据架构设计的一种数据逻辑结构 ,通过分层理念建立的数据仓库,它的可扩展性非常好,这样设计出来的模型架构,可以任意地增减、替换数据仓库中的各个组成部分。数据仓库分层的原因1、用空间换时间,通过数据预处理提高效率,通过...
兰州是二线城市,大数据发展不如一线城市,但是发展还是不错的,尤其兰州新区最近几年发展势头很高,所以说找工作以及未来的发展还是很不错的。现在大数据正式火爆的时候,所以现在学习还来的及,未来三到五年是大数据发展最为快速的时期。...
首先,从架构上,实时数仓与离线数仓有比较明显的区别,实时数仓以Kappa架构为主,而离线数仓以传统大数据架构为主。Lambda架构可以认为是两者的中间态。其次,从建设方法上,实时数仓和离线数仓基本还是沿用传统的数仓主题建模理论,产出事实宽表。另外实时...
Jdk的安装及配置Mysql5.5安装安装maven :本人使用的是idea自带的maven工具。
你的意思是采用java语言编写的那些大数据工具吧,比如hadoop、flume、zookeeper,这些的话,每个人对难易的感受是不一样的,个人感觉不是学起来不是太难,但是要把握学习的深度,不要死抠底层,问题就不是很大...
学习大数据一定要先学习java,因为大数据的好多软件、工具、环境都是基于java的,比如hadoop、zookeeper、flume,sqoop等。所以有java基础后,再学大数据是个锦上添花的事情,后期再学习大数据会比较轻松一点。...
如果直接去单位的话还是相对来说有一定的困难,但是还是能够做一点大数据的其他岗位但是还是需要自己的努力程度吧,对于技术的专研程度
目前大数据获得国家的大力支持,目前数据量呈爆发式的增长,数据是什么,其实就是稀缺资源,手里掌握了数据就掌握着信息,有了这个东西对公司的决策发展是有重要影响的。对公司来说这个人才是很稀缺的。...
不是说需要一个啥基础 个人感觉这个跟文理科关系不算大 只要自己想去学习 找一个好的机构 踏踏实实的学习就完事了 剩下的都不是问题
大数据的内容相比较来说还是比较多的,例如:javase、数据库、linux操作系统、Hadoop基础内容
一、数据科学与大数据技术专业该专业致力于培养掌握数学、计算机、统计等数据科学相关领域基础理论知识,以及数据建模、机器学习、并行与分布式计算、统计推断等方法和技术,从事数据建模、数据分析与挖掘算法等问题的研究和大数据系统开发的研究型和技术型人...