大数据工程师每天工作内容是什么?

2020-09-27 18:00发布

9条回答
水默
2楼 · 2020-09-27 19:54

为集群搭大数据环境

维护大数据平台

数据迁移

应用迁移

数据采集

数据处理

离线数据处理

实时数据处理

数据可视化

大数据平台开发

数据中台开发

搭建数据仓库


橘子奶茶冻
3楼 · 2020-09-29 16:26

数据处理,数据分析,搭建数据环境

大数据工程师每天的工作内容主要有数据采集、数据处理、数据迁移、数据可视化、维护大数据平台等。

猜不到结尾
5楼 · 2020-12-24 09:24

1, 写 SQL :一般来说许多入职一两年的大数据工程师首要的工作就是写 SQL ;

2 ,为集群搭大数据环境(一般公司招大数据工程师环境都现已搭好了,公司内部会有现成的大数据途径);

3 ,维护大数据途径(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作);

4, 数据搬家(有部分公司需求把数据从传统的数据库 Oracle、MySQL 等数据搬家到大数据集群中,这个是比较繁琐的工作);

5 ,运用搬家(有部分公司需求把运用从传统的数据库 Oracle、MySQL

等数据库的存储进程程序或许SQL脚本搬家到大数据途径上,这个进程也是非常繁琐的工作,高度重复且杂乱)

6 ,数据收集(收集日志数据、文件数据、接口数据,这个触及到各种格式的转化,一般用得比较多的是 Flume 和 Logstash)


7, 数据处理

7.1 ,离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和首要点有点重复了)

7.2 ,实时数据处理(这个触及到音讯部队,Kafka,Spark,Flink 这些,组件,一般就是 Flume 收集到数据发给 Kafka 然后Spark 消费 Kafka 的数据进行处理)


8 ,数据可视化(这个我司是用 Spring Boot 联接后台数据与前端,前端用自己魔改的 echarts)

9 ,大数据途径开发(偏Java方向的,大约就是把开源的组件整合起来整成一个可用的大数据途径这样,常见的是各种难用的 PaaS 途径)

10,数据中台开发(中台需求支撑接入各种数据源,把各种数据源清洗转化为可用的数据,然后再根据原始数据建立起宽表层,一般为了节省开发本钱和服务器资源,都是根据宽表层查询出业务数据)

11 ,建立数据仓库(这儿的数据仓库的建立不是指 Hive ,Hive 是建立数仓的东西,数仓建立一般会分为三层 ODS、DW、DM

层,其间DW是最重要的,它又能够分为DWD,DWM,DWS,这个层级仅仅逻辑上的概念,类似于把表名按照层级差异隔来的操作,分层的目的是防止开发数据运用的时分直接访问底层数据,能够减少资源,留意,减少资源开支是减少

内存 和 CPU

的开支,分层后磁盘占用会大大增加,磁盘不值钱所以没什么联络,分层能够使数据表的逻辑更加清楚,便当进一步的开发操作,假定分层没有做好会导致逻辑紊乱,新来的员工难以接手业务,跋涉公司的运营本钱,还有这个建数仓也分为建离线和实时的)


主要是数据采集 — 数据清洗 — 数据存储 — 数据分析统计 — 数据可视化等工作内容

征戰撩四汸
7楼 · 2021-09-10 14:45

数据采集:


业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。


数据清洗:

原始的日志,数据是千奇百怪的

一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。

一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。

一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。


数据存储:

清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。


数据分析统计:

数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。


数据可视化:

用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据~

   当然,大数据运维工程师以搭建大数据平台为主,虽然这部分岗位的门槛相对比较低,但是需要学习的内容还是比较多的,而且内容也比较杂,网络知识、数据库管理知识、操作系统(Linux)知识、大数据平台(含开源和商用平台)知识都需要掌握一些,对于实践操作的要求会比较高。



梵梵
8楼 · 2021-09-15 16:54
11数据采集(采集日志数据、文件数据、接口数据,这个涉及到各种格式的转换,一般用得比较多的是 Flume 和 Logstash)

2 为集群搭大数据环境(一般公司招大数据工程师环境都已经搭好了,公司内部会有现成的大数据平台,但我这边会私下搞一套测试环境,毕竟公司内部的大数据系统权限限制很多,严重影响开发效率)

3 维护大数据平台(这个应该是每个大数据工程师都做过的工作,或多或少会承担“运维”的工作)

4 数据迁移(有部分公司需要把数据从传统的数据库 Oracle、MySQL 等数据迁移到大数据集群中,这个是比较繁琐的工作,吃力不讨好)

5 应用迁移(有部分公司需要把应用从传统的数据库 Oracle、MySQL 等数据库的存储过程程序或者SQL脚本迁移到大数据平台上,这个过程也是非常繁琐的工作,无聊,高度重复且麻烦,吃力不讨好)

6 写 SQL (很多入职一两年的大数据工程师主要的工作就是写 SQL )

7 数据处理
7.1 离线数据处理(这个一般就是写写 SQL 然后扔到 Hive 中跑,其实和第一点有点重复了)
7.2 实时数据处理(这个涉及到消息队列,Kafka,Spark,Flink 这些,组件,一般就是 Flume 采集到数据发给 Kafka 然后 Spark 消费 Kafka 的数据进行处理)

8 数据可视化(这个我司是用 Spring Boot 连接后台数据与前端,前端用自己魔改的 echarts)

9 大数据平台开发(偏Java方向的,大概就是把开源的组件整合起来整成一个可用的大数据平台这样,常见的是各种难用的 PaaS 平台)

10 数据中台开发(中台需要支持接入各种数据源,把各种数据源清洗转换为可用的数据,然后再基于原始数据搭建起宽表层,一般为了节省开发成本和服务器资源,都是基于宽表层查询出业务数据)

11 搭建数据仓库
请叫我雷锋叔叔啊
9楼 · 2021-09-16 18:11

数据采集:业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。

数据清洗:一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。

数据存储:清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。

数据分析统计:数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

数据可视化:用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据。


相关问题推荐

  • 回答 208

    培训优势:学习时间相对较短,整体学习比较全面,学习内容也比较集中。专业老师按照大纲进行系统授课,在学习中遇到技术问题能够快速得到解决,同时还有专项的练相对于自学,学习气氛更加浓,跟同期学员对问题的探讨,对拓展思路有很大的帮助。学习变成一件很...

  • 考1+x证书要交费吗?2020-06-19 09:59
    回答 9

    免费的啊,国家出钱。至少现在还是

  • 回答 56

    这三个属于不方向的岗位,ps属于最简单的平面设计,室内设计主要是房屋内设计等,ui主要是界面射界,比如app界面和网页界面等等。

  • 回答 32

    网课是网络直播的形式,互动方面较弱,学生一般只能通过打字与老师交流,线下课可以直接与老师接触,更好的得到老师的解答

  • 回答 43
    已采纳

    基本上所有行业都是需要一直学习新的东西的,现在的发展比较快,基本没有什么行业可以是不用去学习新的东西的

  • 回答 43
    已采纳

    热门职位一:Web前端工程师工作职责:Web前端工程师就是使用HTML、CSS、JavaScript等专业技能和工具,将产品的UI设计稿实现成网站产品,涵盖用户PC端、移动端等网页,处理视觉和交互问题。现状:是互联网时代软件产品研发中不可缺少的角色。需求:每日岗位需...

  • 回答 43
    已采纳

    找3个常用的招聘软件,看看最近一个月内该地区的java岗位,看看这些招聘的更新时间是否最新,如果数量多而且更新频繁那就说明是真的缺口比较大

  • 什么是OAO?2020-12-21 13:32
    回答 29

    OAO(Online And Offline),即线下(实体店)和线上(网店)有机融合的一体化双店经营模式,可将线上消费者引导至线下实体店消费,也可将线下实体店的消费者吸引至线上消费,从而实现线上线下资源互通、信息互联、相互增值,是实体商业第四代交易模式和标准。...

  • 回答 11

    看同事性格之类的,每个人性格不同注意的点也不一样,基本上以工作为主,少探听他人私人事儿最好吧

  • 回答 9

    为人很亲和,做事儿坦荡,能在一定事情上客观的给你指导。不说小话,不小肚鸡肠。

  • 回答 8

    如果讨厌的对象是你的上司 讨厌的对象不仅仅是你周围的同时,也很有可能是你的上司,可能因为它的能力低下,你对它产生种种的不满意,可能他没有那么的平易近人、和蔼可亲,对你说华大声大气,对你的工作挑三拣四,却从不加以指点,纠正:也许它是贫者关系作...

  • 回答 9

    语气不能委婉也不能强硬,就很平常的语气(重在你自己把握)然后继续忙你的事,不要有愧疚的情绪,然后有其他的事就跟对方平常交谈,也就是一种就事论事的态度。 我知道你开始拒绝心里会很有负担。但最最重要的是,千万千万别表现出来,表面装都要装得若无其...

  • 回答 9

    一、为什么会离职? 二、为什么会选择xx公司? 三、为什么选择这个职位? 四、在原来的单位主要做什么工作的? 五、在原来工作上有哪些创新? 六、原来工作上遭遇了哪些挫折? 七、在工作中你联系最紧密的关系单位是哪里?为什么? 八、在这个新平台上...

  • 回答 4

    安静不被打扰的环境是必须的,电话面试一般会持续二十分钟以上,同时要保持精神高度集中,如果是HR的面试,更多的会考量候选人的求职动机,职位匹配度,性格等。用人部门会注重专业能力的考察 。简历主要有两部分:第一部分是个人介绍、联系方式、工作经历。...

  • 回答 7

    第一:按层次来描述项目经验。所谓按层次来描述项目经验就是采取一个递进的方式,从初级开发岗位的项目经验逐渐向主力开发岗位的项目经验过渡。这种描述方式能够让面试官对于应聘者的成长过程有一个比较全面的了解,也能够考察应聘者能力提升的过程和质量。第...

  • 回答 7

    系统整理基础知识、代码质量、解题思路

没有解决我的问题,去提问