【大数据面试题】常见的大数据面试题（三）

2020-04-28 14:27发布生成海报

站内文章 / 面试问题

895 0

大数据时代，许多工作都要依靠海量的数据，尤其是IT行业，那么做大数据工程师需要掌握哪些呢？以下就是一些大数据面试题：

1、怎么解决kafka的数据丢失

2、fsimage和edit的区别?

3、列举几个配置文件优化?

4、datanode 首次加入 cluster 的时候，如果 log 报告不兼容文件版本，那需要namenode 执行格式化操作，这样处理的原因是?

5、MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么?

6、hadoop的优化?

7、采集nginx产生的日志，日志的格式为user ip time url htmlId 每天产生的文件的数据量上亿条，请设计方案把数据保存到HDFS上，并提供一下实时查询的功能(响应时间小于3s)

8、有 10 个文件，每个文件 1G，每个文件的每一行存放的都是用户的 query，每个文件的query 都可能重复。要求你按照 query 的频度排序。还是典型的 TOP K 算法，

9、在 2.5 亿个整数中找出不重复的整数，注，内存不足以容纳这 2.5 亿个整数。

10、腾讯面试题：给 40 亿个不重复的 unsigned int 的整数，没排过序的，然后再给一个数，如何快速判断这个数是否在那 40 亿个数当中?