flume中source 和sink为什么可以不配置_大数据

3条回答

2楼 · 2021-01-06 10:29

Flume简介

Flume 是Cloudera(就是CDH的那个公司) 开发的实时日志收集系统，它是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
Flume可以根据需求接收不同的数据类型，同时将接收的数据发送到其他的具有接收能力或者处理能力的地方，如kafka，hdfs，本地文件等，比如冲一个app埋点采集过来的日志数据发送到flume中，即可将日志进行存储到hdfs或者文件然后解析离线分析，又可以(同时可以)将日志发送到kafka，然后进行实时分析；在这里Flume充当一个类似管道的作用，将接收到的数据引流到所需的地方去，本身不存储数据但是有一定的缓冲，区别于kafka消息队列，可以持久化数据；
flume有三个重要的Source、Channel、Sink

Source

即flume来源，是专门用来收集数据的，可以处理各种类型、各种格式的日志数据（包括avro、thrift、exec、jms、spooling directory、netcat、 generator、syslog、http、legacy、自定义），还有其他如Http等一些数据源，也可以自己重写一个类，比如自动读取数据数据库（flume-ng-sql-source ）,并将接收的数据以Flume的event格式传递给一个或者多个通道channel，。

Channel

即管道,是接收到数据源，在sink前中间的一个连接通道，可以理解为从水塔到水龙头之间那个水管管道，本身不是存储数据，只是一个短暂临时的容器，Channel将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用

Sink

即数据最终流向的地方，它将channel中发送过来的数据存储到指定的组件中，包括文本，hdfs，数据库，kafka，hbase，网络流等

配置示例

a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source:配置接收的源为avro格式，并且定义了发送的ip和端口，一般log4j，logback在打日志就能发送，已经有集成好的logback的
a1.sources.r1.channels =  c1
a1.sources.r1.type = avro
a1.sources.r1.bind = 192.168.1.100
a1.sources.r1.port = 44444

# Describe the sink1  to local file：定义sink的形式和其他配置，file_roll表示写入本地文件中
a1.sinks.k1.channel = c1
a1.sinks.k1.type = file_roll  
a1.sinks.k1.sink.directory = /data/log/test
a1.sinks.k1.sink.file.prefix=flume-
a1.sinks.k1.sink.rollInterval=3600
a1.sinks.k1.sink.batchSize=10
a1.sinks.k1.sink.serializer=text
a1.sinks.k1.sink.serializer.appendNewline = true

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10240 #内存中存储 Event 的最大数
a1.channels.c1.transactionCapacity = 10240 #source 或者 sink 每个事务中存取 Event 的操作数量（不能比 capacity 大）
Event是Flume流中的最小单位，比如一行就是一个Event，在代码中可以根据不同的event的进行不同数据处理

相关问题推荐

数据仓库的元数据是怎么管理的？大数据生态系统 2020-08-25 08:58

回答 2

对于相对简单的环境，按照通用的元数据管理标准建立一个集中式的元数据知识库。对于比较复杂的环境，分别建立各部分的元数据管理系统，形成分布式元数据知识库，然后，通过建立标准的元数据交换格式，实现元数据的集成管理。...
离线数仓，实时数仓分别是什么？大数据生态系统 2020-07-22 08:49

回答 5

离线是将一定时间内的数据统一处理后加入到数据仓库中，实时是每来一条数据处理一条并加入到数据仓库中，数据的时效性较高
数仓中的分层理论是什么，能举一例说明吗？大数据生态系统 2020-07-22 08:48

回答 1

分层是数据仓库解决方案中，数据架构设计的一种数据逻辑结构，通过分层理念建立的数据仓库，它的可扩展性非常好，这样设计出来的模型架构，可以任意地增减、替换数据仓库中的各个组成部分。数据仓库分层的原因1、用空间换时间，通过数据预处理提高效率，通过...
兰州大数据前景怎么样？现在学习大数据来得及嘛？大数据生态系统 2020-07-07 15:06

回答 1

兰州是二线城市，大数据发展不如一线城市，但是发展还是不错的，尤其兰州新区最近几年发展势头很高，所以说找工作以及未来的发展还是很不错的。现在大数据正式火爆的时候，所以现在学习还来的及，未来三到五年是大数据发展最为快速的时期。...
什么是离线数仓，什么又是实时数仓？大数据生态系统 2020-06-24 09:07

回答 5

首先，从架构上，实时数仓与离线数仓有比较明显的区别，实时数仓以Kappa架构为主，而离线数仓以传统大数据架构为主。Lambda架构可以认为是两者的中间态。其次，从建设方法上，实时数仓和离线数仓基本还是沿用传统的数仓主题建模理论，产出事实宽表。另外实时...
大数据工作中使用的环境系统搭建方式有哪些？大数据生态系统 2020-05-15 10:47

回答 1

Jdk的安装及配置Mysql5.5安装安装maven ：本人使用的是idea自带的maven工具。
目前主流的Java分布式框架有哪些，学起来难不难 大数据生态系统 2020-05-15 09:13

回答 2

你的意思是采用java语言编写的那些大数据工具吧，比如hadoop、flume、zookeeper，这些的话，每个人对难易的感受是不一样的，个人感觉不是学起来不是太难，但是要把握学习的深度，不要死抠底层，问题就不是很大...
学大数据可以不学java吗 大数据生态系统 Big Data 2020-04-08 18:06

回答 10

学习大数据一定要先学习java，因为大数据的好多软件、工具、环境都是基于java的，比如hadoop、zookeeper、flume，sqoop等。所以有java基础后，再学大数据是个锦上添花的事情，后期再学习大数据会比较轻松一点。...
大学的大数据专业学出来可以从事何种程度的工作？大数据生态系统 2020-04-07 13:34

回答 2

如果直接去单位的话还是相对来说有一定的困难，但是还是能够做一点大数据的其他岗位但是还是需要自己的努力程度吧，对于技术的专研程度
可以把大数据当终身工作吗？大数据概论 大数据生态系统 2020-04-07 13:31

回答 3

目前大数据获得国家的大力支持，目前数据量呈爆发式的增长，数据是什么，其实就是稀缺资源，手里掌握了数据就掌握着信息，有了这个东西对公司的决策发展是有重要影响的。对公司来说这个人才是很稀缺的。...
文科生想转行大数据，需要学什么基础？大数据概论 大数据生态系统 2020-04-07 11:45

回答 2

不是说需要一个啥基础个人感觉这个跟文理科关系不算大只要自己想去学习找一个好的机构踏踏实实的学习就完事了剩下的都不是问题
我想学习大数据，究竟要有哪些基础才可以 大数据生态系统 2020-04-01 21:12

回答 1

大数据的内容相比较来说还是比较多的，例如：javase、数据库、linux操作系统、Hadoop基础内容
与大数据相关的专业有哪些？大数据生态系统 2020-04-01 11:46

回答 1

已采纳

一、数据科学与大数据技术专业该专业致力于培养掌握数学、计算机、统计等数据科学相关领域基础理论知识，以及数据建模、机器学习、并行与分布式计算、统计推断等方法和技术，从事数据建模、数据分析与挖掘算法等问题的研究和大数据系统开发的研究型和技术型人...

没有解决我的问题，去提问

【大数据生态系统】flume中source 和sink为什么可以不配置

Flume简介

Source

Channel

Sink

配置示例

相关问题推荐

等你来答

热门问答

相关文章

【大数据生态系统】flume中source 和sink为什么可以不配置

Flume简介

Source

Channel

Sink

配置示例

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间