如何实时从mysql采集数据推送到hive中？_大数据

【Hive Join&排序】如何实时从mysql采集数据推送到hive中？

2020-06-24 09:09发布

3条回答

2楼 · 2020-06-24 09:29

MySQL由于自身简单、高效、可靠的特点，成为小米内部使用最广泛的数据库，但是当数据量达到千万/亿级别的时候，MySQL的相关操作会变的非常迟缓；如果这时还有实时BI展示的需求，对于mysql来说是一种灾难。

为了解决sql查询慢，查不了的业务痛点，我们探索出一套完整的实时同步，即席查询的解决方案，本文主要从实时同步的角度介绍相关工作。

早期业务借助Sqoop将Mysql中的数据同步到Hive来进行数据分析，使用过程中也带来了一些问题：

为了更有效地连接前端业务数据系统（MySQL）和后端统计分析系统（查询分析引擎），我们需要一套实时同步MySQL数据的解决方案。

小米内部实践

如何能够做到数据的实时同步呢？我们想到了MySQL主从复制时使用的binlog日志，它记录了所有的 DDL 和 DML 语句（除了数据查询语句select、show等），以事件形式记录，还包含语句所执行的消耗时间

3楼 · 2020-06-24 15:40

flume自定义sqlsource，oracle golden gate均可

4楼 · 2021-11-29 13:35

MySQL主从复制时使用的binlog日志，它记录了所有的 DDL 和 DML 语句（除了数据查询语句select、show等），以事件形式记录，还包含语句所执行的消耗时间

【Hive Join&排序】如何实时从mysql采集数据推送到hive中？