数加使用自定义调度资源进行数据同步

数加使用自定义调度资源进行数据同步

数加数据同步的工具

众所周知数加的数据是存储在MaxCompute(原名:ODPS)上,目前数加上所有的数据同步都是基于datax插件,通过datax插件可以在不同的数据源之间同步,常用的数据源有SFTP,Mysql,MaxCompute. datax已经开源了,但是数加使用的版本跟开源的版本略微有点不一样,参考资料: 开源版本 数加版本

什么是自定义调度资源

数加提供的数据同步工具也是基于datax,且他们有很多的机器(在杭州ECS)专门用来运行datax,把这部分机器资源叫做默认调度资源;相对于默认调度资源,运行在我们(用户)的机器上的调度资源叫做自定义调度资源.

为什么需要使用自定义调度资源

目前数加的默认调度资源都是在杭州ECS,而我们的大部分数据回流需要回流到北京机房或者是华北2区(和北京机房有专线通道)的ECS上,如果直接使用默认调度资源会出现datax写数据的时候是跨机房的(从杭州的ECS到北京ECS或北京机房这块目前是没有VPC专线通道的)走公网,网络不那么稳定,从而导致同步速度慢,甚至网络抖动导致任务失败.因此我们需要在北京的ECS上搭建一些调度资源(目前是2台ECS,4核16G)来解决这个问题,这样datax在从MaxCompute导数据到北京机房或者北京ECS的时候就可以通过内网的方式进行数据写入,提高速度和稳定性;聪明的你一定发现了:datax在抽取数据的时候是跨机房的,也就是数据从MaxCompute到datax的时候是跨机房的.是的没错,但是MaxCompute提供了一个VPC连接服务地址,而且还是免费使用,这样就能有效提高整个同步任务的速度和稳定性.

如何使用自定义调度资源进行数据同步

  1. 添加自定义调度资源 (对于大部分同学不需要操作,因此放在后面说明)
  2. 添加内网数据源 :项目管理员操作,和添加其他数据源一样,只是对应的地址换成内网地址,这里不需要测试连接,因为测试连接会失败[原因自己想想],直接保存.
  3. 新建或修改同步任务 : 目前通过可视化界面的任务无法找到对应的表(原因跟第2点的测试一样),所以目前只能转化成脚本模式https://help.aliyun.com/document_detail/49808.html?spm=5176.doc47677.6.568.mnDS29,然后需改ODPS端的`"odpsServer": "http://odps-ext.aliyun-inc.com/api",

        "tunnelServer": "http://dt-ext.nu16.odps.aliyun-inc.com",` 添加这两个是为了datax在连接MaxCompute的时候走vpc通道.如果没有这两个,则添加这里是因为我们要把数据导到北京因此使用这两个地址,如果是其他地方,请参考MaxCompute的[连接服务地址](https://help.aliyun.com/document_detail/34951.html?spm=5176.doc27989.2.7.DxwUOY "连接服务地址") 
  4. 修改任务的资源调度: 由于数加数据同步默认使用默认调度资源,因此我们需要修改调度资源,如下图image选择对应的自定义资源, 修改后需要重新补数据或测试运行才能使用自定义调度资源,修改之前生成的实例还是使用默认调度资源,这个设计不知道数加的产品是出于什么考虑,我是感觉有点怪怪的.

如何添加自定义调度资源

请自行查看数加的官方文档新增自定义调度资源

优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/135748

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS

Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。