DataWorks

2020-05-09 1115

DataWorks介绍

DataWorks（数据工厂，原大数据库开发套件）是阿里云数加重要的PaaS平台产品，它提供全面托管的工作流服务，一站式开发管理界面，帮助企业专注于数据价值的挖掘和探索。
它是一套基于MaxCompute（原ODPS）的DW解决方案，他集成了阿里多年的DW实施经验，提供数据集成、处理、分析和管理功能，并为代码开发、调试、发布、运维、监控和管理提供了一个高效、安全的离线数据开发环境。

全面托管的调度

强大的调度能力，千万级别的任务调度；
支持按照时间、依赖关系的任务触发机制；
支持每日任务按照DAG关系准确、准时运行；
支持分钟、小时、天、周和月多种调度周期配置；
完全托管的服务，无需关心调度服务器资源问题；
租户之间提供隔离，保证不同租户之间的任务不会互相影响。

支持多种任务类型

支持数据同步、SHELL、MaxCompute SQL、MaxCompute MR等多种任务类型，通过任务之间的相互依赖完成复杂的数据分析处理。

可视化开发

提供可视化的代码开发、工作流设计器页面，无需搭配任何开发工具，简单的拖拽和开发就可以完成复杂的数据分析任务。
只要有浏览器、有网络，便可随时随地进行开发工作。

监控告警

运维中心提供可视化的任务监控管理工具，支持以DAG图的形式展示任务运行时的全局情况；
可方便地配置短信、邮件报警，任务发生错误可及时通知相关人员，保证业务正常运行。

DataWorks产品特点

基于MaxCompute：一套基于Max Compute（原ODPS）的数据开发、数据管理工具。
清晰可见的血缘：基于统一的元数据服务提供数据资源管理视图、可视化的数据血缘分析、清晰展现数据表的输入与输出，方便追溯其处理过程。
一站式数据开发：提供数据同步、数据加工、一键发布、调度引擎等一站式大数据开发服务。
可视化开发界面：面向数据开发者、数据运维人员，项目管理者提供了可视化的开发界面。

产品优势

1、专业
解决数据同步、开发与运维问题。全面提升大数据加工的效率，降低成本。
2、易用
屏蔽云端复杂性，轻松完成云端数据同步。灵活撰写数据处理代码，极简任务管理。
3、大数据处理能力
与MaxCompute（原ODPS）完美融合，释放其处理能力。实现数据价值的深度挖掘与业务的数据化运营。

DataWorks基本概念

组织与项目空间

组织

组织是大数据平台特有概念，一个公司开通大数据平台服务就创建一个组织，一个组织内创建多个项目空间。组织之间互相隔离，一个账号只能所属一个组织。元数据按组织隔离，只能查看本组织下的表元数据。

项目空间（project）

项目空间时数据开发中最基本的组织对象，类似于传统数据库的database。数据开发的项目空间，是进行多组织隔离和访问控制的主要边界，也是用户管理表（table）、资源（resource）、自定义函数（UDF）、作业（job）、节点（node）、工作流（workflow）、权限等的基本单元。

任务（task）

任务是指定义对数据执行的操作。每个任务使用0或0个以上的数据表（数据集）作为输入，生成一个或多个数据表（数据集）作为输出。
如：
使用数据同步节点任务，将数据从RDS复制到MaxCompute。
使用MaxCompute SQL节点任务运行MaxCompute SQL来进行数据的转换。
使用工作流任务，通过内部几个不同的SQL内部节点完成一系列的数据转换。

工作流（WorkFlow）

工作流是一个DAG图（有向无环图），其描述了作业中多个节点之间的逻辑（依赖关系）和规则（运行越是）。

节点（Node）

节点属于工作流的字对象，也称为任务，是数据开发数据处理和分析过程的最基本单元，每个任务对应DAG图中的一个节点，其可以是一个SQL Query、命令和MapReduce程序。

依赖关系（Dependency）

依赖关系是描述两个或多个节点/工作流之间的语义连接关系，其中上游节点/工作流的运行状态可以影响下游节点/工作流的运行状态，反正则不成立。

实例（Instance）

在调度系统中的任务经过调度系统、手动触发运行后会生成一个实例，实例代表了某个任务在某时某刻执行的一个快照，实例中会有任务的运行时间、运行状态、运行日志等信息。

资源（Resource）

资源是数据开发的特有概念，用户可以上传本地自定义的JAR或文件作为资源，在节点运行时调用，如，在数据开发中运行MapReduce程序，需要将MapReduce生成的JAR包上传到平台后，通过节点调用所上传的资源来运行此MapReduce程序。

函数（Function）

MaxCompute提供了Java的编程接口来开发用户自定义函数。在大数据平台数据开发套件中指出Java UDF。
说明：资源与函数都是MaxCompute的概念，在DataWorks中，可以通过界面管理资源、函数。如果通过MaxCompute的其他方式进行资源、函数管理，则无法在DataWorks中进行相关的查询。

DataWorks功能框架

DataWorks是底层基于MaxCompute（原ODPS）的集成开发环境，包括数据开发、数据管理、数据分析、数据挖掘和管理控制台。其中数据分析和数据挖掘属于阿里云大数据开发平台高级组件。

大数据开发平台功能模块

组织管理

管理dataworks的项目空间。
管理dataworks的调度资源。
管理组织成员、权限、角色等

项目管理

配置项目属性，包括基本属性、数据源、计算引擎以及流程控制。
管理项目成员

数据开发

开发任务、脚本、配置调度
管理资源、函数等。

数据管理

找数据、权限管理
数据表管理

运维中心

任务管理，包括查看、编辑、运行
任务的运维和监控，包括运行日志、调度和恢复以及监控报警

DataWorks角色隔离

组织管理员

指组织的管理者，可新建计算引擎、新建项目空间、新建调度资源、添加组织成员、为组织成员赋予项目管理员角色、配置数据类目等。即阿里云云账号的角色，此角色不能赋予其他账号。

项目管理员

指项目空间的管理者，可对该项目空间的基本属性、数据源、当前项目空间计算引擎配置和项目成员等进行管理，并为项目成员赋予项目管理员、开发、运维、部署、访客角色。对应maxcompute的数据权限为project/table/fuction/resource/instance/job/volume/offlinemodel/package的所有权限，对应maxcompute的role_project_admin角色

开发

开发角色的用户能够创建工作流、脚本文件、资源和UDF，新建/删除表，同时可以创建发布包，但不能执行发布操作。maxcompute的数据权限为project/fuction/resource/instance/job/volume/offlinemodel/package/table的所有权限，对应maxcompute的role_project_dev角色

运维

运维角色的用户由项目管理员分配运维权限；拥有发布及线上运维的操作权限，没有数据开发的操作权限。maxcompute的数据权限为project/fuction/resource/instance/job/offlinemodel的所有权限，拥有volume/package的read权限和table的read/describe权限。maxcompute角色为role_project_pe.

部署

部署角色与运维角色相似，但是它没有线上运维的操作权限。默认无maxcompute的数据权限，对应maxcompute的role_project_deploy角色

访客

访客角色的用户只具备查看权限，没有权限进行编辑工作流和代码等操作。默认无maxcompute数据权限，maxcompute的角色为role_project_guest.

安全员

安全管理员仅在数据保护伞中用到，用于敏感规则配置，数据风险审计等。默认无maxcompute数据权限，maxcompute的角色role_project_security.

微信关注我们

原文链接：https://yq.aliyun.com/articles/759572

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ASP.NET Core on K8S深入学习（12）Ingress

本篇已加入《.NET Core on K8S学习实践系列文章索引》，可以点击查看更多容器化技术相关系列文章。一、关于Ingress Kubernetes对外暴露Service主要有三种方式：NodePort、LoadBalancer 以及 Ingress。前两种我们在第四篇《你必须知道的Service》一文中已经加以介绍，这里我们主要来看看Ingress是个什么鬼。官网对 Ingress 的定义为管理对外服务到集群内服务之间规则的集合，通俗点讲就是它定义规则来允许进入集群的请求被转发到集群中对应服务上，从来实现服务暴漏。Ingress 能把集群内 Service 配置成外网能够访问的 URL，流量负载均衡，终止SSL，提供基于域名访问的虚拟主机等等。我们可以再次回顾一下我们通常访问一个业务的流程： User在浏览中输入一个域名 DNS至业务入口，这里一般指外部负载均衡器（Load Balancer），比如阿里云的SLB服务外部负载均衡器反向代理到K8S的入口，比如Ingress Ingress将请求转交给对应的Service Service将请求对应到某一个具体的Pod 了解...

2020-05-10

735

云栖号快速入门：【点击查看更多云产品快速入门】不知道怎么入门？这里分分钟解决新手入门等基础问题，可快速完成产品配置操作！本文将为您介绍DataWorks的应用场景示例。日志大数据分析提高工作效率。将日志数据同步至MaxCompute，通过SQL语句进行分析与处理，提高工作效率。提高存储利用率。降低整体存储和计算的费用的同时，并提高性能和稳定性。降低大数据使用门槛。MaxCompute提供多种开源软件的插件，可以轻松完成数据上云。推荐搭配使用： DataWorks + 数据集成 + AnalyticDB for MySQL + Quick BI + MaxCompute客户案例请参见墨迹天气。精细化运营提升业务洞察能力。通过MaxCompute计算能力，可以实现针对百万用户的精细化运营。业务数据化。可以提升对业务数据的分析能力并进行有效监控，更好地业务赋能。快速响应业务需求。可以根据新业务的数据分析需求，快速灵活地进行响应与满足。推荐搭配使用： DataWorks + 数据集成 + Quick BI + MaxCompute客户案例请参见美甲帮。数据安全管理敏感...

2020-05-10

1015

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。

DataWorks

DataWorks介绍

全面托管的调度

支持多种任务类型

可视化开发

监控告警

DataWorks产品特点

产品优势

DataWorks基本概念

组织与项目空间

组织

项目空间（project）

任务（task）

工作流（WorkFlow）

节点（Node）

依赖关系（Dependency）

实例（Instance）

资源（Resource）

函数（Function）

DataWorks功能框架

大数据开发平台功能模块

组织管理

项目管理

数据开发

数据管理

运维中心

DataWorks角色隔离

组织管理员

项目管理员

开发

运维

部署

访客

安全员

ASP.NET Core on K8S深入学习（12）Ingress

DataWorks应用场景有哪些？

相关文章

发表评论

资源下载

腾讯云软件源

Spring

Sublime Text

WebStorm

欢迎您来访！