Hadoop/Spark相关面试问题总结
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/46916857 Hadoop/Spark相关面试问题总结 面试回来之后把其中比较重要的问题记了下来写了个总结: (答案在后面) 1、简答说一下hadoop的map-reduce编程模型 2、hadoop的TextInputFormat作用是什么,如何自定义实现 3、hadoop和spark的都是并行计算,那么他们有什么相同和区别 4、为什么要用flume导入hdfs,hdfs的构架是怎样的 5、map-reduce程序运行的时候会有什么比较常见的问题 6、简单说一下hadoop和spark的shuffle过程 以下是自己的理解,如果有不对的地方希望各位大侠可以帮我指出来~: 1、简答说一下hadoop的map-reduce编程模型 首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合 使用的是hadoop内置的数据类型,比如longwritable、text等 将键值对集合输入mapper进行业务...