2021-01-05 13:54发布
如题
Flume 是Cloudera(就是CDH的那个公司) 开发的实时日志收集系统,它是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以根据需求接收不同的数据类型,同时将接收的数据发送到其他的具有接收能力或者处理能力的地方,如kafka,hdfs,本地文件等,比如冲一个app埋点采集过来的日志数据发送到flume中,即可将日志进行存储到hdfs或者文件然后解析离线分析,又可以(同时可以)将日志发送到kafka,然后进行实时分析;在这里Flume充当一个类似管道的作用,将接收到的数据引流到所需的地方去,本身不存储数据但是有一定的缓冲,区别于kafka消息队列,可以持久化数据; flume有三个重要的Source、Channel、Sink
即flume来源,是专门用来收集数据的,可以处理各种类型、各种格式的日志数据(包括avro、thrift、exec、jms、spooling directory、netcat、 generator、syslog、http、legacy、自定义),还有其他如Http等一些数据源,也可以自己重写一个类,比如自动读取数据数据库(flume-ng-sql-source ),并将接收的数据以Flume的event格式传递给一个或者多个通道channel,。
即管道,是接收到数据源,在sink前中间的一个连接通道,可以理解为从水塔到水龙头之间那个水管管道,本身不是存储数据,只是一个短暂临时的容器,Channel将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用
即数据最终流向的地方,它将channel中发送过来的数据存储到指定的组件中,包括文本,hdfs,数据库,kafka,hbase,网络流等
a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source:配置接收的源为avro格式,并且定义了发送的ip和端口,一般log4j,logback在打日志就能发送,已经有集成好的logback的 a1.sources.r1.channels = c1 a1.sources.r1.type = avro a1.sources.r1.bind = 192.168.1.100 a1.sources.r1.port = 44444 # Describe the sink1 to local file:定义sink的形式和其他配置,file_roll表示写入本地文件中 a1.sinks.k1.channel = c1 a1.sinks.k1.type = file_roll a1.sinks.k1.sink.directory = /data/log/test a1.sinks.k1.sink.file.prefix=flume- a1.sinks.k1.sink.rollInterval=3600 a1.sinks.k1.sink.batchSize=10 a1.sinks.k1.sink.serializer=text a1.sinks.k1.sink.serializer.appendNewline = true # Use a channel which buffers events in memory a1.channels.c1.type = memory a1.channels.c1.capacity = 10240 #内存中存储 Event 的最大数 a1.channels.c1.transactionCapacity = 10240 #source 或者 sink 每个事务中存取 Event 的操作数量(不能比 capacity 大) Event是Flume流中的最小单位,比如一行就是一个Event,在代码中可以根据不同的event的进行不同数据处理
对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。...
离线是将一定时间内的数据统一处理后加入到数据仓库中,实时是每来一条数据处理一条并加入到数据仓库中,数据的时效性较高
分层是数据仓库解决方案中,数据架构设计的一种数据逻辑结构 ,通过分层理念建立的数据仓库,它的可扩展性非常好,这样设计出来的模型架构,可以任意地增减、替换数据仓库中的各个组成部分。数据仓库分层的原因1、用空间换时间,通过数据预处理提高效率,通过...
兰州是二线城市,大数据发展不如一线城市,但是发展还是不错的,尤其兰州新区最近几年发展势头很高,所以说找工作以及未来的发展还是很不错的。现在大数据正式火爆的时候,所以现在学习还来的及,未来三到五年是大数据发展最为快速的时期。...
首先,从架构上,实时数仓与离线数仓有比较明显的区别,实时数仓以Kappa架构为主,而离线数仓以传统大数据架构为主。Lambda架构可以认为是两者的中间态。其次,从建设方法上,实时数仓和离线数仓基本还是沿用传统的数仓主题建模理论,产出事实宽表。另外实时...
Jdk的安装及配置Mysql5.5安装安装maven :本人使用的是idea自带的maven工具。
你的意思是采用java语言编写的那些大数据工具吧,比如hadoop、flume、zookeeper,这些的话,每个人对难易的感受是不一样的,个人感觉不是学起来不是太难,但是要把握学习的深度,不要死抠底层,问题就不是很大...
学习大数据一定要先学习java,因为大数据的好多软件、工具、环境都是基于java的,比如hadoop、zookeeper、flume,sqoop等。所以有java基础后,再学大数据是个锦上添花的事情,后期再学习大数据会比较轻松一点。...
如果直接去单位的话还是相对来说有一定的困难,但是还是能够做一点大数据的其他岗位但是还是需要自己的努力程度吧,对于技术的专研程度
目前大数据获得国家的大力支持,目前数据量呈爆发式的增长,数据是什么,其实就是稀缺资源,手里掌握了数据就掌握着信息,有了这个东西对公司的决策发展是有重要影响的。对公司来说这个人才是很稀缺的。...
不是说需要一个啥基础 个人感觉这个跟文理科关系不算大 只要自己想去学习 找一个好的机构 踏踏实实的学习就完事了 剩下的都不是问题
大数据的内容相比较来说还是比较多的,例如:javase、数据库、linux操作系统、Hadoop基础内容
一、数据科学与大数据技术专业该专业致力于培养掌握数学、计算机、统计等数据科学相关领域基础理论知识,以及数据建模、机器学习、并行与分布式计算、统计推断等方法和技术,从事数据建模、数据分析与挖掘算法等问题的研究和大数据系统开发的研究型和技术型人...
最多设置5个标签!
Flume简介
Flume 是Cloudera(就是CDH的那个公司) 开发的实时日志收集系统,它是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
Flume可以根据需求接收不同的数据类型,同时将接收的数据发送到其他的具有接收能力或者处理能力的地方,如kafka,hdfs,本地文件等,比如冲一个app埋点采集过来的日志数据发送到flume中,即可将日志进行存储到hdfs或者文件然后解析离线分析,又可以(同时可以)将日志发送到kafka,然后进行实时分析;在这里Flume充当一个类似管道的作用,将接收到的数据引流到所需的地方去,本身不存储数据但是有一定的缓冲,区别于kafka消息队列,可以持久化数据;
flume有三个重要的Source、Channel、Sink
Source
即flume来源,是专门用来收集数据的,可以处理各种类型、各种格式的日志数据(包括avro、thrift、exec、jms、spooling directory、netcat、 generator、syslog、http、legacy、自定义),还有其他如Http等一些数据源,也可以自己重写一个类,比如自动读取数据数据库(flume-ng-sql-source ),并将接收的数据以Flume的event格式传递给一个或者多个通道channel,。
Channel
即管道,是接收到数据源,在sink前中间的一个连接通道,可以理解为从水塔到水龙头之间那个水管管道,本身不是存储数据,只是一个短暂临时的容器,Channel将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用
Sink
即数据最终流向的地方,它将channel中发送过来的数据存储到指定的组件中,包括文本,hdfs,数据库,kafka,hbase,网络流等
配置示例
相关问题推荐
对于相对简单的环境,按照通用的元数据管理标准建立一个集中式的元数据知识库。 对于比较复杂的环境,分别建立各部分的元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实现元数据的集成管理。...
离线是将一定时间内的数据统一处理后加入到数据仓库中,实时是每来一条数据处理一条并加入到数据仓库中,数据的时效性较高
分层是数据仓库解决方案中,数据架构设计的一种数据逻辑结构 ,通过分层理念建立的数据仓库,它的可扩展性非常好,这样设计出来的模型架构,可以任意地增减、替换数据仓库中的各个组成部分。数据仓库分层的原因1、用空间换时间,通过数据预处理提高效率,通过...
兰州是二线城市,大数据发展不如一线城市,但是发展还是不错的,尤其兰州新区最近几年发展势头很高,所以说找工作以及未来的发展还是很不错的。现在大数据正式火爆的时候,所以现在学习还来的及,未来三到五年是大数据发展最为快速的时期。...
首先,从架构上,实时数仓与离线数仓有比较明显的区别,实时数仓以Kappa架构为主,而离线数仓以传统大数据架构为主。Lambda架构可以认为是两者的中间态。其次,从建设方法上,实时数仓和离线数仓基本还是沿用传统的数仓主题建模理论,产出事实宽表。另外实时...
Jdk的安装及配置Mysql5.5安装安装maven :本人使用的是idea自带的maven工具。
你的意思是采用java语言编写的那些大数据工具吧,比如hadoop、flume、zookeeper,这些的话,每个人对难易的感受是不一样的,个人感觉不是学起来不是太难,但是要把握学习的深度,不要死抠底层,问题就不是很大...
学习大数据一定要先学习java,因为大数据的好多软件、工具、环境都是基于java的,比如hadoop、zookeeper、flume,sqoop等。所以有java基础后,再学大数据是个锦上添花的事情,后期再学习大数据会比较轻松一点。...
如果直接去单位的话还是相对来说有一定的困难,但是还是能够做一点大数据的其他岗位但是还是需要自己的努力程度吧,对于技术的专研程度
目前大数据获得国家的大力支持,目前数据量呈爆发式的增长,数据是什么,其实就是稀缺资源,手里掌握了数据就掌握着信息,有了这个东西对公司的决策发展是有重要影响的。对公司来说这个人才是很稀缺的。...
不是说需要一个啥基础 个人感觉这个跟文理科关系不算大 只要自己想去学习 找一个好的机构 踏踏实实的学习就完事了 剩下的都不是问题
大数据的内容相比较来说还是比较多的,例如:javase、数据库、linux操作系统、Hadoop基础内容
一、数据科学与大数据技术专业该专业致力于培养掌握数学、计算机、统计等数据科学相关领域基础理论知识,以及数据建模、机器学习、并行与分布式计算、统计推断等方法和技术,从事数据建模、数据分析与挖掘算法等问题的研究和大数据系统开发的研究型和技术型人...