大白话 六问数据中台!你想知道的都在这了!
数据中台、相信这四个字大家一定不陌生。因为在2019年、数据中台可谓是最火的概念之一,很多大公司都在布局自己的数据中台。
那么数据中台到底是什么?它和我们熟知的数据平台有啥区别?它为什么会这么火、能给企业带来什么价值呢?数据中台整体架构和全景图又是什么呢?
笔者有幸参与了公司数据中台从0到N的建设,计划从概念到落地,把中台那些事跟您说透,与您一起分享学习。笔者公众号:【胖滚猪学编程】
第一问:数据中台是什么
先不说那些官方的抽象的概念了,我想用我自己的大白话去说数据中台的概念。
那就是如果把前台比作赚钱的。后台比作支持的。那么中台呢就是支持加速赚钱的。
这个比喻我觉得还是很形象的,中台呢它实质就是前台和后台的一个桥梁,并且它能在这当中起到很好的加速效果。这里的加速,可以是效率上的提高,可以是协作上的共赢。
举个例子,比如前台业务人员日常要分析广告投放、在哪个平台投放效益最好呢?抖音还是头条呢?这直接涉及到公司的money了。
前台人员要分析这个肯定要有数据吧、就会向后台人员要数据:我需要哪些表你要帮我同步过来数仓里,同步好了你要授权给我,然后你再去配置定时报表任务、配置好了你要再做一个前端的展示页面。这还没完,数据有问题了还得跟你逼逼叨叨!
这个流程下来,前台人员需要向后台人员沟通100句。有了数据中台、一句话都不用说了。上面这些操作,前台人员都可以自行完成。
所以说数据中台给我们业务效率带来了巨大的提升。
那数据中台有没有缺点呢?
我觉得也是有的,本来后台那些单身小哥哥可以蹭这个机会去跟前台妹子打些交道、说不定姻缘就来了,毕竟前台妹子多,结果被这数据中台一搞,一句话都说不上了。这确实是数据中台的一个缺点。
现在大家应该有个初步的印象了,那么我再用官方抽象的语句做一个总结:数据中台是企业级能力复用平台!企业级大数据通过系统化的方式实现统一共享的数据组织。其中共享包括数据、信息、技术、业务的共享等。它以服务化的方式赋能前台数据应用,稳定可靠、高效的支持上层业务的快速创新,为业务快速赋能。
第二问:数据中台和数据平台的区别
因为我们一直以来都是听数据平台这个词听得比较多,所以第二问我们还是要来说一下它们之间的差别。
数据平台你可以把它看成是数据集,那么数据中台呢他就是数据集API,那么它们之间就差在API这三个字母上,API我想应该不需要过多解释呢,大家都知道,比如学JAVA的时候有了JAVA API你才知道怎么使用,那么数据中台相当于在数据平台的基础上告诉你这些数据怎么使用。
另外,数据中台是偏向于业务的,而数据平台是偏技术的
但是、数据中台和数据平台也有千丝万缕的联系。数据中台需要依赖大数据平台,大数据平台完成了数据研发的全流程覆盖,而数据中台增加了数据治理和数据服务化的内容。总的来说,数据中台吸收了传统数据仓库、数据湖、大数据平台的优势,同时又解决了数据共享的难题,通过数据应用,实现数据价值的落地。
第三问:数据中台有哪些价值
数据中台的价值,我想用三个关键词来概括:效率、协作、质量
- 效率:比如数据研发的效率、发现数据的效率。为什么我们每开发一个报表都要改代码呢?为什么数据有问题的问题的时候,我们要找很久才能发现是某某上游的问题呢。
- 协作:很多应用开发,其实不同的项目组需求大致相同。还是用开发报表来举例,不同业务线项目组开发报表都一个套路,但因为是别的项目组维护的,所以就是得分别开发一遍。就不能协作共赢?
- 质量:比如数据的一致性、准确性、及时性以及完整性,有没有一个通用的平台来检验这些数据呢。
上面说的还是有一点儿抽象,其实要具体回答这个问题,你首先得大概知道数据中台有哪些功能哪些模块。比如数据地图、元数据管理、数据血缘、数据处理等等都属于数据中台。每个模块都有它的功能,所以它的作用并不是一言两语可以说得清,这里笔者再举一些真实的例子来对比一下:
例一:没有数据中台之前,业务人员根本就不知道HIVE数仓有哪些表,不知道这些表的具体信息(列信息、索引信息、分区信息、责任人信息)。他要出一张报表还要来问你:"hello 帮我看一下HIVE有没有同步这张表吧?hello 帮我看一下这张表是不是分区表吧?"。这个表有问题了,他又要来问你"hello 这张表负责人是谁啊?" 有了数据中台之后,完全不需要管了。(这个是元数据管理给我们带来的便捷)
例二:没有数据中台之前,我们根本就不清楚表的来源和链路,尤其是一些复杂报表的结果表,来源非常复杂可能涉及到多个系统,涉及十几个源表。等到上游业务表要做变更、都不知道会影响哪些报表,线上已经运行上千个报表了啊!要去揪出这些来实在是麻烦!有了数据中台之后,10秒钟就能解决这个问题。(这个是数据血缘给我们带来的便捷)
第四问:数据中台架构
我们说数据中台是服务于公司业务的,因此必须要从自己的业务角度去进行一个全局的规划和架构。不过你依旧可以参考一下典型的架构图:
笔者认为可以分为几大部分:
- 数据采集汇聚(数据库,日志,前端埋点,爬虫系统等)
- 数据处理和开发(离线计算、实时流计算等)
- 数据治理(元数据管理、数据血缘、数据质量、数据安全等)
- 数据服务(智能报表、标签系统、推荐系统、大屏等)
其中、数据采集和数据处理开发,你也可以理解为是数据平台的东西。由于篇幅问题,不对每一个模块作详细说明。笔者将在个人公众号【胖滚猪学编程】详细分享各个模块的概念、功能、以及生产落地方案!
第五问:我们该做数据中台吗?
首先一句话:千万不要跟风。中台不是你想做想做就能做。
因为要做起一个真正意义上的数据中台,一定是站在公司的层面去看待,而不是某个业务部门自己玩玩过家家。因此需要非常大的投入,人力、物力的投入。而这些系统是否能够匹配中台建设的需求,还需要持续打磨。另外必须对公司的整体业务滚瓜烂熟,才能有这种全局的视野去建设中台。
那什么情况下我们可以考虑建设中台呢?
- 企业是否有大量的数据应用场景?数据中台本身并不能直接产生业务价值,数据中台的本质是支撑快速地孵化数据应用。所以当你的企业有较多数据应用的场景时(一般有3个以上就可以考虑)
- 企业存在较多的业务数据的孤岛,需要整合各个业务系统的数据,进行关联的分析,此时,你需要构建一个数据中台。比如在我们做电商的初期,仓储、供应链、市场运营都是独立的数据仓库,当时数据分析的时候,往往跨了很多数据系统,为了消除这些数据孤岛,就必须要构建一个数据中台。
- 当你的团队正在面临效率、质量和成本的苦恼时,面对大量的开发,却不知道如何提高效能,数据经常出问题而束手无策,老板还要求你控制数据的成本,这个时候,数据中台可以帮助你。
- 当你所在的企业面临经营困难,需要通过数据实现精益运营,提高企业的运营效率的时候,你需要构建一个数据中台,同时结合可视化的Bl数据产品,实现数据从应用到中台的完整构建。
- 企业规模也是必须要考虑的一个因素,数据中台因为投入大,收益偏长线,所以更适合业务相对稳定的大公司,并不适合初创型的小公司。
第六问:数据中台的参考资料
不得不承认一点,网上关于数据中台的资料太少了,笔者去年中旬从0开始建设数据中台的时候,花了大量时间搜集资料。现在也愿意与大家分享一下我收集到的资料。
书籍推荐:数据中台-让数据用起来。
博文推荐:
什么是中台,什么不是中台。所有的中台都是业务中台
到底啥是平台,到底啥是中台?
在构建数据中台之前,你需要知道的几个趋势
火热的数据中台对企业的价值是什么?
你真地需要一个中台吗?
阿里的中台战略其实是个伪命题
从平台到中台 | Elasticsearch 在蚂蚁金服的实践经验
七问七答,亲历者讲阿里中台落地的实践我的一年中台实战录
滴滴出行构建业务中台应对软件复杂度的具体对策与实践
10张图解密阿里数据中台
落地推荐
可以参考阿里的DataWorks产品,上面有很多关于数据中台的原型图可以作为参考。
DataWorks
笔者也将在公众号【胖滚猪学编程】上分享自己搭建数据中台的亲身经历,不多说无用概念,直接把生产落地方案分享给你!
最后总结:以用户为中心,以愿景为指引,从战略入手,用科学有效的方法,步步为营沉淀企业级能力,付以必要的组织与系统架构调整,方得中台。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
还在纠结深度学习算法?计算机视觉CV的关键在于数据采集和标注!
科技云报道原创。 2012年,AlexNet网络横空出世,带来了前所未有的深度学习革命,这也让多年来进展缓慢的计算机视觉CV研究,一下被按下了“快进键”。 人们突然发现,这种模拟人脑抽象和迭代过程的深度学习算法,让计算机开始“看见”。从物体的边缘、轮廓到物体的部分,再向更高级层层抽象,深度学习让计算机终于能够在一张日常照片中,检测并识别出图上有一只猫,而不是一条狗。 这样的一小步,人类已经等待了二十多年。2016-2018年,深度学习成为计算机视觉CV研究的算法“标配”,人脸识别、图像识别、视频识别、物体跟踪、行人检测等CV技术得以进一步突破,并快速应用到安防、金融、汽车出行、泛娱乐等各个行业中。 如今,人们拿起手机刷脸支付、一键美颜、拍照识图,背后都有计算机视觉CV技术的身影。而在更广阔的行业市场,智慧城市、自动驾驶、智能家居、智慧医疗等多种场景都在渴望计算机视觉CV技术更进一步。 过去五年,计算机视觉CV领域一度成为国内创投圈的“宠儿”。仅2018年,该领域融资额就高达230亿。然而,这样的盛景并没有持续多久。 去年2月,计算机视觉奠基人Alan L. Yuille曾撰文表达他对当...
- 下一篇
直播预告 | 事件风暴和领域建模在阿里巴巴的落地实践
伴随着微服务和中台概念的兴起,领域驱动设计(DDD)和事件风暴(Event Storming)越来越流行。Event Storming是什么?该如何落地?本期《云效说码》特别邀请到阿里巴巴技术专家李建(甫田)聊一聊《事件风暴和领域建模在阿里巴巴的落地实践》。 对于一名架构师来说,在软件开发中如何降低系统复杂度是一个永恒的挑战,领域驱动设计(DDD)的出现似乎带来一丝曙光。然而在考虑如何对业务模型进行抽象从而建立领域模型之前,我们必须解决业务与产品、开发之间“沟通”的问题。如何才能让业务人员和开发人员顺畅沟通,而不是各说各话? 如何才能在业务流程设计中不要遗漏成败攸关的业务场景?如何才能让业务沟通的过程顺畅过渡到架构设计、编码乃至测试?我们需要一种方法让DDD更好的落地。 事件风暴(Event Storming)是一种在领域驱动设计(D
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Windows10,CentOS7,CentOS8安装Nodejs环境
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS关闭SELinux安全模块
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS7设置SWAP分区,小内存服务器的救世主