大数据概论】【大数据基础】Flume原理是什么?

2020-10-20 11:26发布

4条回答
芒果
2楼 · 2020-10-20 15:41

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件、socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现。Flume针对特殊场景也具备良好的自定义扩展能力,所以flume可以适用于大部分的日常数据采集场景。Flume的运行原理是:Flume的核心角色为Agent,Flume分布式系统常常是由很多的Agent连接而形成的。Agent内部有三个组件,一是Source采集源,用于跟数据源对接,获取数据。二是Channel通道,Agent内部的数据传输通道,用于从source将数据传递到Sink。三是Sink目标地,采集数据的传送目的地,用于往下一级agent传递数据或者往最终存储系统传递数据。采集模式分为单级和多级采集模式。

Sophia
3楼 · 2020-10-20 16:52

Flume的事务机制(类似数据库的事务机制):Flume使用两个独立的事务分别负责从Soucrce到Channel,以及从Channel到Sink的事件传递。比如spooling directory source 为文件的每一行创建一个事件,一旦事务中所有的事件全部传递到Channel且提交成功,那么Soucrce就将该文件标记为完成。同理,事务以类似的方式处理从Channel到Sink的传递过程,如果因为某种原因使得事件无法记录,那么事务将会回滚。且所有的事件都会保持到Channel中,等待重新传递。


爱梦 - 拿来吧你
4楼 · 2020-10-21 09:31

Flume 是 Cloudera 提供的日志收集系统,具有分布式、高可靠、高可用性等特点,对海量日志采集、聚合和传输,Flume 支持在日志系统中定制各类数据发送方,同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。

Flume 使用 java 编写,其需要运行在 Java1.6 或更高版本之上。

  • 官方网站:http://flume.apache.org/

  • 用户文档:http://flume.apache.org/FlumeUserGuide.html

  • 开发文档:http://flume.apache.org/FlumeDeveloperGuide.html


霸气的名字 - 喜欢晴天
5楼 · 2020-10-22 18:42

flume 是系统, 是高可用的,高可靠的,分布式的海量数据日志采集,聚合和传输的系统

总结就是 两个特点。高可用,高可靠 三个功能:数据的采集,聚合和传输.。

体系架构:

F的数据流是由事件(event)贯穿始终。事件是F的基本数据单位。事件携带着这事件所有数据内容信息和数据头信息。这些事件(event) 由Agent外部的Source 生成。当Source捕获事件后会进行特定格式化。然后Source 会把事件推入到单个或者多个channel中,可以把channel看做是缓冲区,起到缓冲数据的作用,这channel将保存事件直到sink 处理完该事件。sink 负责持久化日志或者把事件推向另一个source中

F以agent 为最小的独立运行单位。 一个agent 就是一个jvm d单agent 由Source ,sink,channel 三大组件构成




相关问题推荐

  • 回答 6

    大数据开发:1、负责公司大数据产品/项目的后台研发;2、负责技术预研,产品设计以及文档编写等工作;3、参与大数据的数据治理和数据处理相关java开发工作;4、参与海量数据处理,业务数据体系的设计、数据统计、分析及数据建模大数据开发要处理大规模的数据...

  • 回答 1

    修改log4j.properties文件中的:# Define the root logger to the system property plsql.root.logger.log4j.rootLogger=./sql.log# Logging Threshold to INFO for queryserver. root logger still at WARN for sqlline cl...

  • 回答 1

    如果没找到解决方法,最好的方法就是重装

  • 回答 1

    杀毒软件关了

  • 回答 2

    1、上传jar包到/opt/software/解压到/opt/module 改名为phoenix2、 复制server和client这俩个包拷贝到各个节点的hbase/lib在phoenix目录下3、向每个节点发送server jar4、向每个节点发送client jar5、在root权限下给/etc/profile 下添加如下内容6、启动Zookee...

  • 回答 1

    安装和配置Phoenix把下载好的安装包放入software目录下解压Phoenix到opt目录下[root@hadoop100 software]# tar -zxvf apache-phoenix-4.14.0-cdh5.14.2-bin.tar.gz -C /opt进入Phoenix的bin目录下把phoenix-4.14.0-cdh5.14.2-server.jar包复制到hbase目...

  • 回答 7

    phoenix是构建的Hbase之上的,使用标准的SQL操作Hbase,可以做联机事务处理,拥有低延迟的特性。phoenix会把SQL编译成一系列的Hbase的scan操作,然后把scan结果生成标准的JDBC结果集,其底层由于使用了Hbase的API,协处理器,过滤器,处理千万级行的数据也只...

  • 回答 3

    ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。...

  • 回答 2

    想考计算机相关证书或者想学技术的同学可以抓紧时间啦!双11更多优惠活动详情咨询18597153017(微信同号)

  • 回答 2

    一、Selector(选择器)Selector概述Selector(选择器)可以工作在复制或多路复用(路由) 模式下 。复制模式Selector复制模式-属性说明selector.type replicating 类型名称,默认是 replicatingselector.optional – 标志通道为可选Selector复制模式-案例 #命...

  • 回答 2

    (1)电子商务网站比如我们在做一个电子商务网站,然后我们想从消费用户中访问点特定的节点区域来分析消费者的行为或者购买意图. 这样我们就可以更加快速的将他想要的推送到界面上,实现这一点,我们需要将获取到的她访问的页面以及点击的产品数据等日志数据信...

  • 回答 4

    HBase是一个构建在HDFS之上的、分布式的、支持多版本的NoSQL数据库,它的出现补齐了大数据场景下快速查询数据能力的短板。它非常适用于对平台中的热数据进行存储并提供查询功能。...

  • 回答 4

    HBase数据结构运行原理

  • 回答 6

    传统数据库存储B树 B+树 B-树传统关系型数据普通索引就是采用B+树的方式B+树最大的性能问题是会产生大量的随机IO,随着新数据的插入,叶子节点会慢慢分裂,逻辑上连续的叶子节点在物理上往往不连续,甚至分离的很远,但做范围查询时,会产生大量读随机IO;Hba...

  • 回答 7

    对象存储:我们知道不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中,一些病毒公司的病毒库也是存储在HBase之中时序数据:HBase之上有OpenTSDB模块,可以满足时序类场景的需求推荐画像:特别是用户的画像,是一个比较大的稀疏矩阵,蚂蚁的风控就是...

没有解决我的问题,去提问