大数据框架有哪些?

2020-05-07 20:16发布

6条回答
收获的少年
2楼 · 2020-05-07 20:22

Impala:hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。

Spark:各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/python语言开发。提供scala/python代码命令行运行、超大数据支持差。

Kylin:预计算、好优化、高性能、支持mr、spark、基于时间的增量更新、流式更新、数据源有hive/kafka、提供开发用的管理台是一套开发系统。由于有预计算、所以其他各个模块独立,能支持高并发。可以直接作为软件系统的数据源。

Phoenix:sql on hbase、快

Hbase:key/value、强一致性、不丢数据



佐小一
3楼 · 2020-05-07 22:06

大数据框架:现阶段用的最多的就hadoop、spark、flinnk。hadoop家族又包含了很多例如HDFS,MAPREDUCE,YARN以及其他模块工具。

冬瓜
4楼 · 2020-05-07 22:17

Hadoop Flink Spark等

记忆里的东关
5楼 · 2020-05-08 23:35

主要研究三个生态圈

  1. Hadoop

  2. Spark

  3. Flink

coder
6楼 · 2020-05-09 14:09

Hadoop 采用 Map Reduce 分布式计算框架,根据 GFS开发了 HDFS 分布式文件系统,根据 Big Table 开发了 HBase数据存储系统。Hadoop 的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon 以及国内的百度,阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建自己的分布。

金喆
7楼 · 2020-08-19 18:41

1、HadoopHadoop 采用 Map Reduce 分布式计算框架,根据 GFS开发了 HDFS 分布式文件系统,根据 Big Table 开发了 HBase数据存储系统。Hadoop 的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon 以及国内的百度,阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建自己的分布。

2、Spark

  Spark 是在 Hadoop 的基础上进行了一些架构上的改良。Spark 与Hadoop 最大的不同点在于,Hadoop 使用硬盘来存储数据,而Spark 使用内存来存储数据,因此 Spark 可以提供超过 Ha?doop 100 倍的运算速度。由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。

3、 Storm

Storm 是 Twitter 主推的分布式计算系统。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。

4、Samza

  Samza 是由 Linked In 开源的一项技术,是一个分布式流处理框架,专用于实时数据的处理,非常像Twitter的流处理系统Storm。不同的是Sam?za 基于 Hadoop,而且使用了 Linked In 自家的 Kafka 分布式消息系统。

  Samza 非常适用于实时流数据处理的业务,如数据跟踪、日志服务、实时服务等应用,它能够帮助开发者进行高速消息处理,同时还具有良好的容错能力。


相关问题推荐

  • 大数据怎么样?2021-01-13 14:45
    回答 36

    大数据薪资待遇挺可观的

  • 回答 7

    用的挺多的呀,首先以前很多项目都是基于ssm的,所以现在如果不升级的话,就需要维护,然后现在很多项目也不一定非得用比如springboot或者springcloud来处理。

  • 回答 3
    已采纳

    大数据的主要特点有哪些?大数据这个概念自被各界媒体所关注后,便一直站在风口浪尖引人注目。不落后的你想要深入浅出地了解大数据?大圣众包以4V为你详尽讲述大数据的四个特点。大数据主要特点:1.准确(Veracity)这是一个在讨论大数据时时常被忽略的一个属性...

  • 回答 8

    Mybatis和hibernate不同,它不完全是一个ORM框架,因为MyBatis需要程序员自己编写Sql语句,不过mybatis可以通过XML或注解方式灵活配置要运行的sql语句

  • 回答 9

    redis没有直接使用C语言传统的字符串表示(以空字符结尾的字符串数组,以下简称C字符串)。C字符串并不能满足redis对字符串安全性、效率以及功能的要求,所以Ridis自定义SDS抽象类型。       Redis中,C字符串只会作为字符串字面量(string literal)用...

  • 回答 7

    世界编程语言有很多种,但在网络编程中应用比较广泛又适合大数据开发的java是比较合适的,因为java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。 如果你对java有一定的了解,就更应该清楚java是一个强类型编程...

  • 回答 5

    1、模板热部署        在SpringBoot中,模板引擎的页面默认是开启缓存的,如果修改了页面的内容,则刷新页面是得不到修改后的页面的,因此我们可以在application.properties中关闭模版引擎的缓存,如下:        Thymeleaf的配置:spring.thymeleaf...

  • 回答 2

    mysql默认用户名是 root ,默认没有密码

  • 回答 2

    一.成员变量和局部变量1.程序例子:public class HelloThreadTest{public static void main(String[] args){HelloThread r = new HelloThread();Thread t1 = new Thread(r);Thread t2 = new Thread(r);t1.start();t2.start();}}clas......

  • 回答 2

        方法一:使用ThreadLocal,ThreadLocal会为每一个线程提供一个独立的变量副本,这样在多线程对数据访问就不会出现冲突。因为每一个线程都拥有自己的变量副本,因此也就不需要同步该变量。ThreadLocal提供了线程安全的共享对象,在编写多线程代码时,可...

  • 回答 4

    我们知道Spring相对于之前框架的明显一点区别就是Spring容器生成的Bean都是默认单例的,初读到这里的时候我也是有点疑惑,所以写这篇文章来谈谈线程安全和单例多例的问题。在讲单例和线程安全之前首先我们要明白一点,那就是在单例模式下多线程也可以同时访问...

  • 回答 2

    一、在 SQL 映射文件的 select 标签中添加 useGeneratedKeys=true 属性与 keyProperty=  属性,keyProperty 的值表示的是将获取到的自增主键值赋给 JavaBean 中的某个字段。                  insert into t_employee(username, ge...

没有解决我的问题,去提问