12条回答

2楼 · 2021-01-03 21:39

1、Chukwa Apache Chukwa 是 Apache 旗下另一个开源的数据收集平台，它远没有其他几个有名。Chukwa 基于 Hadoop 的 HDFS 和 MapReduce 来构建（显而易见，它用 Java 来实现），提供扩展性和可靠性。Chukwa 同时提供对数据的展示，分析和监视。很奇怪的是它的上一次 Github 的更新事 7 年前。可见该项目应该已经不活跃了。

官网：http://chukwa.apache.org/

2、Scribe Scribe 是 Facebook 开源的日志收集系统，在 Facebook 内部已经得到的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是 NFS，HDFS，或者其他分布式文件系统等）上，以便于进行集中统计分析处理。

官网：https://www.scribesoft.com/

3、Fluentd Fluentd 是另一个开源的数据收集框架。Fluentd 使用 C/Ruby 开发，使用 JSON 文件来统一日志数据。它的可插拔架构，支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。

官网：https://www.fluentd.org/

4、Logstash Logstash 是著名的开源数据栈 ELK（ElasticSearch，Logstash，Kibana）中的那个 L。几乎在大部分的情况下 ELK 作为一个栈是被同时使用的。所有当你的数据系统使用 ElasticSearch 的情况下，Logstash 是首选。Logstash 用 JRuby 开发，所以运行时依赖 JVM。

官网：https://www.elastic.co/cn/products/logstash 5、Apache Flume Flume 是 Apache 旗下，开源，高可靠，高扩展，容易管理，支持客户扩展的数据采集系统。 Flume 使用 JRuby 来构建，所以依赖 Java 运行环境。Flume 最初是由 Cloudera 的工程师设计用于合并日志数据的系统，后来逐渐发展用于处理流数据事件。

官网：http://flume.apache.org/

瑶瑶吖 - 已所不欲，勿施于人

3楼 · 2021-01-04 09:18

采集平台：

Apache Flume
Fluentd
Logstash
Chukwa
Scribe
Splunk Forwarder

哆啦公

4楼 · 2021-01-04 09:28

收集工具有很多，比如流式数据采集，或者数据库数据的转移
流式数据采集有scribe flume这类，数据库转移的有kettle

kitidog2016

5楼 · 2021-01-04 10:29

Chukwa

Apache Chukwa 是 Apache 旗下另一个开源的数据收集平台，它远没有其他几个有名。Chukwa基于 Hadoop 的 HDFS 和 MapReduce 来构建(显而易见，它用 Java 来实现)，提供扩展性和可靠性。Chukwa 同时提供对数据的展示，分析和监视。很奇怪的是它的上一次 Github 的更新事是7 年前。可见该项目应该已经不活跃了。

官网：http://chukwa.apache.org/

Scribe

Scribe 是 Facebook 开源的日志收集系统，在 Facebook 内部已经得到的应用。它能够从各种日志源上收集日志，存储到一个中央存储系统(可以是 NFS，HDFS，或者其他分布式文件系统等)上，以便于进行集中统计分析处理。

官网：https://www.scribesoft.com/

Fluentd

Fluentd 是另一个开源的数据收集框架。Fluentd 使用 C/Ruby 开发，使用 JSON 文件来统一日志数据。它的可插拔架构，支持各种不同种类和格式的数据源和数据输出。最后它也同时提供了高可靠和很好的扩展性。

官网：https://www.fluentd.org/

Logstash

Logstash 是著名的开源数据栈 ELK(ElasticSearch，Logstash，Kibana)中的那个 L。几乎在大部分的情况下 ELK 作为一个栈是被同时使用的。所有当你的数据系统使用 ElasticSearch 的情况下，Logstash 是首选。Logstash 用 JRuby 开发，所以运行时依赖 JVM。

官网：https://www.elastic.co/cn/products/logstash

Apache Flume

Flume 是 Apache 旗下，开源，高可靠，高扩展，容易管理，支持客户扩展的数据采集系统。Flume 使用 JRuby 来构建，所以依赖 Java 运行环境。Flume 最初是由 Cloudera 的工程师设计用于合并日志数据的系统，后来逐渐发展用于处理流数据事件。

官网：http://flume.apache.org/

三岁奶猫

6楼 · 2021-01-04 14:43

Apache Flume
Fluentd
Logstash
Chukwa
Scribe
Splunk Forwarder

有点好奇

7楼 · 2021-01-04 16:01

Apache Flume

Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。

Flume使用JRuby来构建，所以依赖Java运行环境。

Flume最初是由Cloudera的工程师设计用于合并日志数据的系统，后来逐渐发展用于处理流数据事件。

Flume设计成一个分布式的管道架构，可以看作在数据源和目的地之间有一个Agent的网络，支持数据路由。

每一个agent都由Source，Channel和Sink组成。

Source

Source负责接收输入数据，并将数据写入管道。Flume的Source支持HTTP，JMS，RPC，NetCat，Exec，Spooling Directory。其中Spooling支持监视一个目录或者文件，解析其中新生成的事件。

Channel

Channel存储，缓存从source到Sink的中间数据。可使用不同的配置来做Channel，例如内存，文件，JDBC等。使用内存性能高但不持久，有可能丢数据。使用文件更可靠，但性能不如内存。

Sink

Sink负责从管道中读出数据并发给下一个Agent或者最终的目的地。Sink支持的不同目的地种类包括：HDFS，HBASE，Solr，ElasticSearch，File，Logger或者其它的FlumeAgent。

Flume在source和sink端都使用了transaction机制保证在数据传输中没有数据丢失。

Source上的数据可以复制到不同的通道上。每一个Channel也可以连接不同数量的Sink。这样连接不同配置的Agent就可以组成一个复杂的数据收集网络。通过对agent的配置，可以组成一个路由复杂的数据传输网络。

配置如上图所示的agent结构，Flume支持设置sink的Failover和Load Balance，这样就可以保证即使有一个agent失效的情况下，整个系统仍能正常收集数据。

Flume中传输的内容定义为事件(Event)，事件由Headers(包含元数据，Meta Data)和Payload组成。

Flume提供SDK，可以支持用户定制开发：

Flume客户端负责在事件产生的源头把事件发送给Flume的Agent。客户端通常和产生数据源的应用在同一个进程空间。常见的Flume客户端有Avro，log4J，syslog和HTTP Post。另外ExecSource支持指定一个本地进程的输出作为Flume的输入。当然很有可能，以上的这些客户端都不能满足需求，用户可以定制的客户端，和已有的FLume的Source进行通信，或者定制实现一种新的Source类型。

同时，用户可以使用Flume的SDK定制Source和Sink。似乎不支持定制的Channel。

锦衣夜行1

8楼 · 2021-01-06 17:32

Apache Flume
Fluentd
Logstash
Chukwa
Scribe
Splunk Forwarder

魏魏姐

9楼 · 2021-01-07 10:09

八爪鱼采集器

1.首先，下载软件，这个直接到官网上下载就行，如下，很快就能下载成功：

2.下载完成后，一个exe安装包，直接双击安装就行，安装完成后，打开这个软件，主界面如下，这里我们选择“自定义采集”：

3.点击“立即使用”后，就会进入新建任务页面，直接我们直接输入需要爬取的网页地址就行，如下，这里以抓取智联招聘数据为例：

4.保存网址后，就会自动跳转到对应页面并打开，这时我们就可以用鼠标直接选择需要爬取的数据，如下，非常方便：

5.设置完成后，点击采集数据，启动本地采集，软件就会自动开始数据采集过程，成功爬取的数据如下：

这里你可以根据自己所需，将数据导出为Excel、CSV格式等，如下，非常方便：

后羿采集器

1.首先，下载安装软件，这个也直接到官网上下载就行，各个平台的版本都有，选择适合自己平台的版本即可，如下：

2.安装完成后，打开这个软件，主界面如下，这里直接输入需要爬取的网页地址即可：

3.接着点击“智能采集”，软件就会自动加载页面并识别其中的字段，还会尝试着循环翻页，非常智能，如下：

4.点击右下角的“开始采集”，软件就会自动开始采集过程，成功采集后的数据如下：

这里你也可以根据自己所需，将采集的数据导出为你需要的文件格式，如Excel，CSV，TXT等，如下，非常方便：

至此，我们就介绍完了八爪鱼采集器和后羿采集器这2个软件的安装和简单使用。总的来说，这2个软件使用起来都非常不错，只要你熟悉一下环境，多练习几遍操作，很快就能掌握的，当然，你也可以使用其他软件来完成数据采集，像火车头等，也都非常不错，网上也有相关教程和资料，介绍的非常详细，感兴趣的话，可以搜一下，希望以上分享的内容能对你有所帮助吧，也欢迎大家评论、留言进行补充。

1 2 下一页

【大数据基础】flume数据采集工具有哪些

Chukwa

Scribe

Fluentd

Logstash

Apache Flume

八爪鱼采集器

后羿采集器

相关问题推荐

等你来答

热门问答

相关文章

【大数据基础】flume数据采集工具有哪些

Chukwa

Scribe

Fluentd

Logstash

Apache Flume

八爪鱼采集器

后羿采集器

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间