首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/697434

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何编写分布式的数据传输

一、原理 根据前面介绍的datax原理,数据传输主要包括两部分:1)切分task;2)task调度执行 二、如何切分task 根据不同的数据源可以有不同的切分方式(目标端进行适配),几种常见的切分方式 1)mysql:如果是分库分表,可以按照单表切分成一个task;如果是单表,可以根据主键的区间值切分(参考datax的splitKey) 2)hbase:根据region的rowkey进行切分 3)文件:一个文件一个task,如果单文件可以切分(如orc文件),可以一个文件多个task 4)kafka:可以按照partition进行切分 5)其他的可以参考datax里面的reader插件 三、如何进行task调度执行 在datax里面,task的调度分成了两级,首先将task分配到不同的taskGroup,然后每个taskGroup里面有5个不同的线程去消费task,这种分配策略和分布式调度策略有相似之处。以Yarn为例,分配一个AM作为调度节点,每个container作为执行节点即可将datax移植到分布式的执行引擎上面,具体设计可以参考下图 四、上述实现方式即可以是mapreduce...

【眼前一亮!】看Hadoop底层算法如何优雅的将大规模集群性能提升10倍以上?

一,这篇文章给大家聊聊Hadoop在部署了大规模的集群场景下,大量客户端并发写数据的时候,文件契约监控算法的性能优化。二,背景引入 先给大家引入一个小的背景,假如多个客户端同时要并发的写Hadoop HDFS上的一个文件,大家觉得这个事儿能成吗? 明显不可以接受啊,兄弟们,HDFS上的文件是不允许并发写的,比如并发的追加一些数据什么的。 所以说,HDFS里有一个机制,叫做文件契约机制。 也就是说,同一时间只能有一个客户端获取NameNode上面一个文件的契约,然后才可以写入数据。此时如果其他客户端尝试获取文件契约的时候,就获取不到,只能干等着。 通过这个机制,就可以保证同一时间只有一个客户端在写一个文件。 在获取到了文件契约之后,在写文件的过程期间,那个客户端需要开启一个线程,不停的发送请求给NameNode进行文件续约,告诉NameNode: NameNode大哥,我还在写文件啊,你给我一直保留那个契约好吗? 而NameNode内部有一个专门的后台线程,负责监控各个契约的续约时间。 如果某个契约很长时间没续约了,此时就自动过期掉这个契约,让别的客户端来写。 说了这么多,老规矩,给大家...

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux

Rocky Linux(中文名:洛基)是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版,作为CentOS稳定版停止维护后与RHEL(Red Hat Enterprise Linux)完全兼容的开源替代方案,由社区拥有并管理,支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性,采用模块化包装和SELinux安全架构,默认包含GNOME桌面环境及XFS文件系统,支持十年生命周期更新。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册