2020-12-31 13:44发布
大数据的核心是什么?是不是要很深厚的JAVA功底才行?
大数据的核心是存储、管理、分析与挖掘大数据存储和管理:将收集到的数据存储在内存中,建立相应的数据库,并进行管理和调用大数据挖掘:从大量、不完整、有噪声、模糊和随机的实际应用数据中提取隐藏信息和知识的过程,人们事先不知道,但也有可能有用的信息和知识。大数据分析:收集、存储、管理和分析大规模数据,重点是分析如何计算需要计算的数据(HDFS、S3、Hbase、Cassandra)以及如何计算(Hadoop、Spark)。本部分包含更多信息,其中的一些重点是:Hadoop:是一个具有多个组件的通用分布式系统基础结构;Hadoop生态系统主要由核心组件(如HDFS、MapReduce、Hbase、Zookeeper、Ozie、PIG、Hive)组成;Spark:重点关注集群中并行的处理数据,并使用RDD(灵活的分布式数据集)来处理RAM中的数据。风暴:连续处理从源源导入的数据流,并在任何时候获得增量结果。Hbase是一种分布式、面向列的开源数据库,可以被认为是HDFS的封装,它的本质是数据存储和NOSQL数据库。
最多设置5个标签!
大数据的核心是存储、管理、分析与挖掘大数据存储和管理:将收集到的数据存储在内存中,建立相应的数据库,并进行管理和调用大数据挖掘:从大量、不完整、有噪声、模糊和随机的实际应用数据中提取隐藏信息和知识的过程,人们事先不知道,但也有可能有用的信息和知识。大数据分析:收集、存储、管理和分析大规模数据,重点是分析如何计算需要计算的数据(HDFS、S3、Hbase、Cassandra)以及如何计算(Hadoop、Spark)。本部分包含更多信息,其中的一些重点是:Hadoop:是一个具有多个组件的通用分布式系统基础结构;Hadoop生态系统主要由核心组件(如HDFS、MapReduce、Hbase、Zookeeper、Ozie、PIG、Hive)组成;Spark:重点关注集群中并行的处理数据,并使用RDD(灵活的分布式数据集)来处理RAM中的数据。风暴:连续处理从源源导入的数据流,并在任何时候获得增量结果。Hbase是一种分布式、面向列的开源数据库,可以被认为是HDFS的封装,它的本质是数据存储和NOSQL数据库。
一周热门 更多>