【大数据基础】hadoop是做什么的_Hadoop

5条回答

天天

2楼 · 2020-12-27 15:04

Hadoop主要是分布式计算和存储的框架，所以Hadoop工作过程主要依赖于HDFS(Hadoop Distributed File System)分布式存储系统和Mapreduce分布式计算框架。

想当熊猫

3楼 · 2020-12-27 15:09

Hadoop主要是分布式计算和存储的框架，所以Hadoop工作过程主要依赖于HDFS(Hadoop Distributed File System)分布式存储系统和Mapreduce分布式计算框架。

分布式存储系统HDFS中工作主要是一个主节点namenode(master)（hadoop1.x只要一个namenode节点，2.x中可以有多个节点）和若干个从节点Datanode(数据节点)相互配合进行工作,HDFS主要是存储Hadoop中的大量的数据，namenode节点主要负责的是：

1、接收client用户的操作请求，这种用户主要指的是开发工程师的Java代码或者是命令客户端操作。

2、维护文件系统的目录结构，主要就是大量数据的关系以及位置信息等。

3、管理文件系统与block的关系，Hadoop中大量的数据为了方便存储和管理主要是以block块（64M）的形式储存。

一个文件被分成大量的block块存储之后，block块之间都是有顺序关系的，这个文件与block之间的关系以及block属于哪个datanode都是有namenode来管理。

Datanode的主要职责是：

1、存储文件。

2、将数据分成大量的block块。

3、为保证数据的安全，对数据进行备份，一般备份3份。当其中的一份出现问题时，将由其他的备份来对数据进行恢复。

MapReduce主要也是一个主节点JOPtracker和testtracker组成，主要是负责hadoop中的数据处理过程中的计算问题。joptracker主要负责接收客户端传来的任务，并且把计算任务交给很多testtracker工作，同时joptracker会不断的监控testtracker的执行情况。testtracker主要是执行joptracker交给它的任务具体计算，例如给求大量数据的最大值，每个testtracker会计算出自己负责的数据中的最大值，然后交给joptracker。Hadoop的主要两个框架组合成了分布式的存储和计算，使得hadoop可以很快的处理大量的数据。

村西头大妞 - 我就是我，村西头不一样的烟火

4楼 · 2020-12-28 11:02

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），其中一个组件是HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算

1234567

5楼 · 2020-12-28 11:05

Hadoop主要是分布式计算和存储的框架，所以Hadoop工作过程主要依赖于HDFS(Hadoop Distributed File System)分布式存储系统和Mapreduce分布式计算框架。

studentaaa

6楼 · 2021-01-04 17:13

Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。

相关问题推荐

hadoop集群中每台都必须启动DataNode Hadoop 2021-02-25 19:20

回答 1

/data/hadoop-2.7.0/logsgedit hadoop-neworigin-datanode-s100.log查看clusterID发现datanode和namenode之间的ID不一致进入hdfs-site.xml 配置文件查看：[hdfs-site.xml]dfs.namenode.name.dir/home/neworigin/hadoop/hdfs/namedfs.data......
回答 spark on yarn模式部署，spa Hadoop 2021-02-25 19:18

回答 1

Kafka是一个高吞吐量分布式消息系统。linkedin开源的kafka。 Kafka就跟这个名字一样，设计非常独特。首先，kafka的开发者们认为不需要在内存里缓存什么数据，操作系统的文件缓存已经足够完善和强大，只要你不搞随机写，顺序读写的性能是非常高效的。kafka的数...
java程序怎么向远程的hadoop提交mapre Hadoop 2021-02-02 19:22

回答 3

将 hadoop执行job命令写到shell脚本中。类似 hadoop jar x.jar ×××.MainClassName inputPath outputPath这种命令。hadoop客户机在本地，使用 Process执行shell脚本，java执行本地shell脚本的代码 1234Process process =null;String command1 ...
hadoop集群中每台都必须启动DataNode吗 Hadoop 2021-02-02 19:19

回答 1

1
hadoop集群配置了kerberos后，如何使用 Hadoop 2021-02-02 19:19

回答 1

public static void test1(String user, String keytab, String dir) throws Exception { Configuration conf = new Configuration(); // conf.set(fs.defaultFS, hdfs://hadoop01:8020); c...
【Hadoop基础】openSOC环境具体如何搭建 Hadoop 2021-02-02 19:18

回答 1

Hello, world! ]]>
【大数据基础】hadoop怎么用 Hadoop 2021-01-29 20:45

回答 2

Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。 HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布...
【大数据基础】hadoop的核心组件及作用是什么 Hadoop 2021-01-29 20:44

回答 2

Hadoop的三大核心组件分别是：HDFS（Hadoop Distribute File System）：hadoop的数据存储工具。YARN（Yet Another Resource Negotiator,另一种资源协调者）：Hadoop 的资源管理器。Hadoop MapReduce:分布式计算框架...
【大数据基础】hadoop能处理哪些类型数据 Hadoop 2021-01-28 21:01

回答 8

选择开始菜单中→程序→【managementsqlserver2008】→【sqlservermanagementstudio】命令，打开【sqlservermanagementstudio】窗口，并使用windows或sqlserver身份验证建立连接。在【对象资源管理器】窗口中展开服务器，然后选择【数据库】节点右键单击【数...
【大数据基础】hadoop安装详细步骤是怎么样的 Hadoop 2021-01-08 20:19

回答 1
【大数据基础】hadoop的三大组件及其作用是什么 Hadoop 2020-12-27 15:27

回答 7

Hadoop的三大核心组件分别是：1、HDFS(Hadoop Distribute File System)：hadoop的数据存储工具。2、YARN(Yet Another Resource Negotiator,另一种资源协调者)：Hadoop 的资源管理器。3、Hadoop MapReduce:分布式计算框架。HDFS是一个高度容错性的系统，适合部...
【大数据基础】hadoop的三大组件有什么 Hadoop 2020-12-27 15:27

回答 11

Hadoop的三大核心组件分别是：1、HDFS(Hadoop Distribute File System)：hadoop的数据存储工具。2、YARN(Yet Another Resource Negotiator,另一种资源协调者)：Hadoop 的资源管理器。3、Hadoop MapReduce:分布式计算框架。...
【大数据基础】hadoop重要组件有什么 Hadoop 2020-12-27 14:54

回答 4

hadoop有三个主要的核心组件：HDFS(分布式文件存储)、MAPREDUCE(分布式的计算)、YARN(资源调度)。
【大数据基础】hadoop主要优点有什么 Hadoop 2020-12-27 14:52

回答 7

1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖;2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理...
【大数据基础】hbase和hadoop的区别 Hadoop HBase 2020-12-05 14:16

回答 6

1.Hbase即 HadoopDatabase 的简称，也就是基于Hadoop数据库，是一种NoSQL数据库，主要适用于海量明细数据（十亿、百亿）的随机实时查询，如交易清单、日志明细、轨迹行为等。2. Hive是Hadoop的数据仓库，严格地讲并非数据库，主要是让开发人员能够通过SQL来计...

没有解决我的问题，去提问

【Hadoop】【大数据基础】hadoop是做什么的

相关问题推荐

等你来答

热门问答

相关文章

【Hadoop】【大数据基础】hadoop是做什么的

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间