《深入理解Spark:核心思想与源码分析》2次印刷修订内容清单
前言
自从《深入理解Spark:核心思想与源码分析》一书出版以来,陆续收到很多读者的反馈,笔者为此在第1版第2次印刷之前做了一些勘误。为便于购买了老版本书籍的读者查漏补缺,现将勘误内容整理如下。
勘误内容
1、第20页第11行 “中间输出和结果存储在HDFS”改为了“中间输出和结果存储在磁盘”(如图1所示);
图1
2、第20页第12行 “读写HDFS造成”改为了“读写磁盘造成”(如图1所示);
3、第22页第14行 “要选择Java作为”改为了“要选择Scala作为”(如图2所示);
图2
4、第64页 代码清单3-41标题中的“ExecutorLIRLClassLoader的实现”改为了“ExecutorURLClassLoader的实现”(如图3所示);
图3
5、第123页 图4-8 在判断“失败达到最大次数?”与“开始复制”之间加有向箭头,表示当复制失败未达到最大次数还有继续进行复制(如图4所示);
图4
6、第148页 在解释defaultPartitioner的功能实现的第1)步中,将“partitions_"改为了“partitions"(如图5所示);
图5
7、第149页 在”方法“与”实际“之间增加”首先从CheckPoint(检查点)中获取分区信息。如果还没有设置过CheckPoint,则“(如图6所示);
图6
8、第149页 在MappedRDD前加入”检查点的内容请参阅http://blog.csdn.net/beliefer/article/details/51206980“(如图6所示);
9、第153页 在”dagScheduler的runJob,“后加入”最后当dagScheduler的runJob方法执行完毕后,会调用RDD的doCheckPoint方法保存检查点。有关检查点的具体分析请参阅http://blog.csdn.net/beliefer/article/details/51206980“(如图7所示)。
图7
10、第158页 在”获取RDD的所有Dependency的序列。“后加入”可以看到dependencies方法首先从CheckPoint中获取Dependency,如果尚未设置检查点意味着此Job此前还未执行成功或者未执行,那么调用getDenpencies方法获取依赖。有关检查点的内容请参阅http://blog.csdn.net/beliefer/article/details/51206980“(如图8所示);
图8

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
[Hadoop]那些年踩过的Hadoop坑
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/SunnyYoona/article/details/51659080 1. DataNode未启动 1.1 问题原因 这个问题一般是由于两次或两次以上的格式化NameNode造成的。jps命令发现没有datanode启动,所以去Hadoop的日志文件下查看日志(/opt/hadoop-2.7.2/logs/hadoop-xiaosi-datanode-Qunar.log),每个人的日志文件都是不一样的: 2016-06-12 20:01:31,374 WARN org.apache.hadoop.hdfs.server.common.Storage: java.io.IOException: Incompatible clusterIDs in /home/xiaosi/config/hadoop/tmp/dfs/data: namenode clusterID = CID-67134f3c-0dcd-4e29-a629-a823d6c04732; datanode clusterID ...
- 下一篇
Flume 使用学习小结
概述 在做埋点数据离线存储到odps中,用到了Flume。一边使用,一边学习了下Flume。其中感受到Flume确实易伸缩、易扩展。其中的组件都可以根据自己的业务特点方便的自定义使用。 Flume可进行大量日志数据采集、聚合和并转移到存储中,并提供数据在流转中的事务机制;可适用场景:日志--->Flume--->实时计算(如MQ+Storm) 、日志--->Flume--->离线计算(如ODPS、HDFS、HBase)、日志--->Flume--->ElasticSearch等。 Flume架构 Flume主要分为 Source、Channel、Sink三个组件,他们包含在一个Agent中,一个Agent相当于一个独立的application。数据从源头经过Agent的这几个组件最后到达目的地。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2全家桶,快速入门学习开发网站教程
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8编译安装MySQL8.0.19
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Red5直播服务器,属于Java语言的直播服务器