天启:如何从零开始建设数据中台? | 数智加速度04课回顾
4月29日,数据中台建设实战系列课程「数智加速度」第4课,奇点云数据模型架构专家天启带来分享《AI驱动的数据中台架构设计》,步步踏实落地,带大家从0开始建设数据中台。
天启,奇点云数据模型架构专家、原海尔集团数据架构师、原阿里巴巴政务团队数据架构师,精通数据仓库建模理论及数据开发技术,具备零售、政务、医药、制造等多个领域数仓和数据中台建设经验,及PB级数据仓库与数据中台建设经验。
在这一课里,你会听到:
- 数据中台的选型与构建˙
- 数据中台踩过的那些坑
- AI是如何驱动数据中台
- 数据中台新理解与畅想
下文为分享节选:
01 数据中台:正确的人+正确的工具+正确的事=降本增效
数据中台对于许多传统企业而言,依旧是很陌生的概念。
如何从零开始建设数据中台?
我们把它简化为一个方程式,正确的人+正确的工具+正确的事,三者缺一不可。
正确的人
数据中台在国内有完整实践的企业不多,相关的人才也相对较少。企业在选择数据中台时,需要有方法论、实践经验去指导,以避免从零摸索带来大量人力物力的浪费。这也是企业在选择服务商时需要留意的。
正确的工具
在这里主要指的是狭义上的数据中台产品。市面上的产品五花八门,数据中台产品各型各样,如何选择非常关键。
正确的事
数据中台不是摆设,并不是说搭建一个产品意义的数据中台,企业就完成数字化转型了。数据中台最终还是要为业务服务。我们要用数据中台做什么,解决什么业务痛点,需要考虑清楚。
这个方程式最终导向了我们建设数据中台的目的:为企业带来降本增效。「要么给老板省钱(降本),要么给老板挣钱(增效)。」
02 数据中台的选型与构建
首先需要强调的是,在这里我们分享的只是一般情况,不同企业、不同数据情况和不同需求,不可一概而论。不管黑猫白猫,能解决痛点的就是好猫。
数据中台的底层是大数据架构,大数据架构如何去选型?
在架构选型时,成本、场景支持是我们考虑最关键的2个要素。
综合实施周期、实施成本、是否支持实时计算、数据冗余与数据一致性情况等因素,我们认为Lambda架构成本相对适中,又能满足实时计算和离线计算两个场景。
当然,选择Lambda架构也会不可避免地面临数据冗余的问题,而目前大部分传统企业用到实时计算的场景偏少一些,相对来说产生的数据冗余也较少,可以通过数据治理等方式解决。
底层之上是引擎,包括离线计算引擎和实时计算引擎,又应当如何去选型?
离线计算:三种离线计算引擎各有特点,可以综合企业的数据情况和需求,选择合适的计算引擎。
实时计算:在批处理+流处理上,Flink备受青睐,稳定性较好、吞吐量较大。一般来说推荐使用Flink。
在架构上层,则涉及到了:数据模型应如何设计?
数据模型是为业务服务的。具体来说,就是把业务抽象化,提炼成数据模型,再通过数据解决业务问题。
建数据模型,会经历业务建模、概念建模、逻辑建模和物理建模四个阶段。
在模型选择上,我们仅列举两种模型,星型模型与雪花模型。通常情况下,为了能下游能更好地理解业务,快速提供数据服务,我们会采用空间换时间的方式,从而选择星型模型;而在维度信息变化非常频繁,或者数据存储成本非常高的情况下,我们可以采用雪花模型。归根到底,数据模型没有好坏之分,只有能否解决业务问题。
最后需要强调,对于技术和模型的选择,我们做了一些推荐和优劣势的介绍,但技术和模型本身没有对错之分,适合自己的才是最好的(能解决业务问题才是最好的)。
03 数据中台的架构设计
我们把数据中台的架构分为三层,数据资产层、数据服务层、数据应用层。
这张图从下往上看,首先通过数据治理、数据开发、借助数据仓库,把数据转化为可用的数据,即资产「数据资产化」;然后建立数据能力,把数据用起来,例如标签工厂、模型分析等,即「资产服务化」;再通过智能化的场景给业务赋能,也就是「服务智能化」。
04 AI驱动的数据中台
奇点云创立三年来,数据中台的实践在零售、时尚、百购等行业相继落地成功,在实践经验中,探索并检验出了数据中台的王道:AI驱动的数据中台。
所谓「AI驱动」,我们可以看到在架构中融入了奇点云独创的「云(智能)+端(感知)」的解决方案,从数据采集层的AIoT到数据服务层的算法服务、分析引擎再到顶部的数据智能应用,实现了「云赋能端,端丰富云」,既解决企业数据生产的问题,又解决企业数据使用的问题。
在「AI驱动的数据中台」实践的道路上,奇点云自研一站式大数据智能服务平台——DataSimba,旨在为企业提供全链路的产品+技术+方法论服务。其核心模块包括全域数据采集、数据开发、数据治理、数据资产管理、数据API、数据科学、数据质量、标签工厂。助力企业快速搭建安全、易用的数据中台,最大化释放价值,驱动业务增长与创新。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
直播转点播,秒级上线!详解优酷直转点系统
作者| 阿里文娱算法专家 静斋、阿里文娱算法专家 邑尘 一、系统设计背景 互联网视频平台以内容为王,如何帮助内容发挥更大的价值,是技术团队一直努力的方向。 优酷媒体生产团队服务于优酷全站的内容生产,并与媒资运营一起保障着 OGC/PGC 内容的上 线时效与质量。为配合媒资运营提供高时效,高画质,易操作的在线剪辑服务,技术团队启动 了媒资中心全方位升级项目,从基础提效、供需分发匹配、标签体系和生态供给等多个维度, 实现媒资的智能化生产和有效供给,优酷直(播)转点(播)在线剪辑系统应运而生。直转点在线剪辑系统是一个基于 Web 页面的在线生产剪辑系统,前端页面用于用户操作剪 辑并预览效果,后端剪辑服务接受前端指令来做视频的裁剪、遮标、整档上线,拆条等功能, 可支撑不同的生产业务方流水线工作,极大的提升生产效率。本文将介绍其中最常用的直播
- 下一篇
Java实现栈(链表和线性表两种方法实现)
Java实现栈(链表和线性表两种方法实现) 一、栈的介绍任何数据结构都是一种规则 栈就是在最基础的结构——线性结构和链式结构上面定义规则形成的 如果对基本数据结构(线性表和链表)有疑问的同学可以看我之前的博客:https://www.cnblogs.com/yxm2020/p/12762888.html 规则如下: 限制链表或者线性表元素的插入和取出,只能在同一端进行操作,运行插入的一段称为栈顶(top),另一端为固定的一端,成为栈底。 图解:(入栈和出栈) 特点: 先入后出FILO(First in last out),最先放入栈的数据,只能最后才能出来,和队列完全相反 栈的应用场景: 保存运行过程中程序中的代码或者值,比如: 子程序的调用处理递归的调用表达式的转换(中缀转后缀)二叉树的遍历图形的深度优先遍历二、代码的实现思路1、思路 确定一个结构存储数据,线性表或者链表既然只能在栈顶操作,那么定义一栈顶标志(top)最基本的两个方法,入栈和出栈入栈后,在栈顶加入一个元素,top上移一个单元出栈后,在栈顶删除一个元素,top下移一个单元2、Java实现 用Java数组模拟栈java链...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Mario游戏-低调大师作品
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Red5直播服务器,属于Java语言的直播服务器
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装