5分钟GET一场清华大数据讲座实战应用案例干货
9月13日晚,由数据科学研究院主办,国双科技、清华大数据产业联合会承办的2016秋季学期首场清华大数据“应用·创新”系列讲座,在清华大学FIT楼多功能厅顺利举行。本场讲座邀请到了国双联合创始人、国双副总裁黄勇坚,通过实战应用案例对Lambda架构进行了全方位解读。
演讲时长两个多小时,全场满满干货,虽然当天也做了线上视频直播,但依旧有很多没有到场的大数据爱好者对此表示很遗憾,同样身为一名数据粉的小编不忍心让大家遗憾,为了让大家快速GET这场演讲的内容,小编特地捞出干货供大家交流学习。
Google、微信之后是什么时代?
回顾整个IT技术发展历程,它始终是以促使人类办事更加容易,生活更加方便为发展趋势的。
上个世纪40年代以来,依据冯·诺依曼架构、图灵理论而造出了计算机。初心其实是为了打仗,计算原子弹路径千万别跑偏,当时需要庞大的人工的计算量,但二战期间人力有限。IBM的神话由此诞生。
随着时代的发展,除了计算,人们还产生了办公、娱乐等诉求。于是计算机逐步个人化、微型化。那个年代成就了微软、英特尔这样的巨头。
后来进入互联网时代,Google这样改变世界的企业应运而生,紧随其后的还有微信这样的移动互联网神器。如今,当计算世界进入到“大数据”时代,又会出现什么样的传奇呢?
为什么说近十年才是“大数据”的时代?当年比尔·盖茨靠Windows起家难道就没人提“大数据”吗? 十年前,当我们想去一个地方却不知道路怎么走的情况下,还会依赖纸质地图。如今可以直接用百度、高德地图随时导航。十几年前并非没有“数据”,也不是没有需求,而是在整个业态里面,没人有能力收集起来这些数据,“大数据”又从何谈起呢?
中国大数据的两条腿
实质上,大数据技术是以解决业务问题为导向的。国双科技这家公司的文化也是一样以客户为中心,利用“大数据”帮助客户去解决业务问题,同时发现新的问题,以此也可以驱使技术进步。
中国的技术市场比较偏应用,各种基于大数据的应用满天飞,但是做底层做框架的公司并不多。另一方面,由于中国互联网用户数量庞大,大数据的应用又在不断产生新的数据。
为了能够用好这么海量的数据,中国的大数据行业需要两方面的人才,第一类是业务人才,第二类是技术人才。首先,“大数据”需要解决业务问题,业务专家必不可少。其次,相关专业的技术人才所做的的研究也不可或缺。因此“大数据”这个领域将会是一个非常宽广的就业市场。
大数据解决四类问题
“所有的技术的发展是为了解决业务问题,解决人们的衣食住行等生活问题,使人类社会变得更加美好”。用抽象的方式做个归类的话,基本可以归为四大类:
【描述性分析】:发生了什么?
【诊断性分析】:事情发生后,分析为什么会发生?
【预测性分析】:掌握规律,预测下一次什么时候发生?
【分析应用】:根据已经发生的事来解决实际问题,促进业务的发展。
奥运会上的大数据
在奥运会期间,全球数以亿计的观众会通过例如电视、PC,安卓等多个平台对比赛进行观看,这样就产生了跨区域、跨平台的海量数据。这时,国双通过技术帮助CNTV(中国网络电视台)进行“用户播放行为分析”。比如某个赛事在北京的收视率如何,各类终端占比是多少。
商用大数据的最低配置
类似奥运会的商用“大数据”系统有哪些必须满足的性能呢?
第一,高可用性。系统里的这些组件可能会随时挂掉一个,或者若干个,我们必须保证系统还要能正常的工作;
第二,可伸缩性。系统可以通过横向扩容去加机器,去解决数据量增大的问题。
第三,容错性。如果程序出了错误之后,要易于恢复;
第四,高性能。要做到实时且快速反应,不能半天才出来结果。
大数据领域的最基本问题与解决之道
回到上面提到的“在奥运期间,不同的终端,不同的地域,观众究竟分别观看了多少次呢?”这个问题,从问题到答案我们可以看到“大数据”领域最基本的问题以及解决之道。
我们要解决业务问题,究竟现在的在线人数有多少,终端比例是多少等这些问题的本质就是——查询,能把业务问题解决掉的实质也就是把查询这项功能做好。说起来“查询”二字好像很容易,但是这“大数据”行业里面的查询可并不简单,查询可以由这三类构成,分别是OLAP查询、OLTP查询、实时查询。为了支持最基本的问题——查询,Storm的作者就提出了Lambda架构,对查询的问题进行了抽象概化,那么这三种查询究竟是什么样的呢?接下来就对这三种查询进行简单的学习与介绍。
【OLAP数据仓库】
OLAP的英文是Online AnalyticsProcessing,这种技术是专门用于数据分析的,它的核心概念是维度和指标,维度就是分析问题的角度,指标就是一个数字,经过聚合计算的一个数字,通过求平均、求和,用聚合的方式得到了一个指标。这些维度和指标会组成一个数据立方体,允许用户去进行多个维度的察看这些数据立方体的数字,不同的维度与指标交叉就产生了多维度自由剖析。
【OLTP数据库】
OLTP数据库典型的应用就是用户注册,在数据库里面新添加一条用户的信息,上飞机的时候看一下这个用户有没有买票,进图书馆把书还了等,把还的书从借阅的状态变成未借阅的状态,这很显然是数据的更新、查找,一般不用聚合,这是很典型的OLTP数据库应用。
【实时查询(CEP)】
实时查询顾名思义就是要求在很短的延期内,能够对数据做各种各样的预计算,“在奥运期间,不同的终端,不同的地域,观众究竟分别观看了多少次呢?”的问题就是典型的应用,它强调的实时,现在这一刻。
在学习和了解了解决业务的这三种查询方法之后,我们回过头来看CNTV的那个问题,就是做实时的查询,在此基础上利用OLTP及OLAP进行聚合分析,满足那些没有提到的更为复杂的功能需求时,这就是Lambda架构在企业大
数据领域的实际应用。
今天我们从对“大数据”行业的理解说到大数据技术是以“解决业务”为导向,再到大数据能解决什么问题?解决了CNTV的什么问题?最后利用国双提供给CNTV服务中的一个小问题来实例证明“大数据”里面最基础的问题其实也是最佳的解决之道——查询,怎么查询呢?我将查询分为三种查询,有OLAP、OLTP以及实时查询,跟大家讲了这些查询的概念,今天跟大家所讲的Lambda的架构,主要是从一个企业的实际角度来讲,用实际发生的案例让大家来理解Lambda架构在满足高可用性、容错性、可伸缩性和高性能的情况下,怎么能够通过分层的方式,巧妙的把这些东西揉到一起,去解决业务的问题,希望大家能够通过我的这次演讲对“大数据”对“Lambda架构”有新的认识,谢谢大家。
本文作者:数据派
来源:51CTO

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
刘地生|微服务的实践
一.为什么大家都在谈微服务? 背景:随着互联网业务的极速增长,不仅仅体现在用户的增长,你的代码规模也会有直观体现。伴随系统规模的上升,传统的单体架构就像一艘不断变大吨位的巨轮,变得越来越笨重。系统规模所带来的挑战也不断影响着相关的参与者。开发者开发一个新功能、重构一小段代码、引入一个新技术变得不再敏捷可控。测试者的回归测试边界难以琢磨。部署一次变得小心翼翼或提心吊胆。这些都让应对变化变得迟钝。 是的,那个老头(Martin Flower)又出现了,又捣鼓出一个新概念【微服务】。他确实很喜欢捣鼓概念(不做过度解读) 微服务其实也不是那么新,它的提出之前,大家已经在服务化的路上走了好一会了。或者叫SOA或者叫ESB。都尝试解决服务规模导致的开发问题、重用问题、治理问题等等。当然微服务也不完全跟他们一样,至少为了适应现在的新环境提出了一些自
- 下一篇
数据中心网络性能:新应用下的新需求
随着机器学习,大数据,云计算和NFV不断完善,数据中心网络性能也随之发展。亚马逊,谷歌,百度和腾讯等大型云服务提供商已更新提供IT服务的方式,使之功能更强大,速度更敏捷,灵活性更高。这敲响了传统运营商的警钟,AT&T技术与运营首席策略官John Donovan 表示,AT&T致力于成为“世界上最具侵略性的IT公司”。OTT产品在业界的应用已变得普遍,应用和服务开发都需要创新完善。 他表示:“厂商正在逐渐成为竞争对手,过去的竞争对手变为开源开发等领域的合作伙伴。整个行业的工作方式正在发生变化。我们在标准机构这个平台上共同管理,交流意见解决问题、制作产品。每个参与者都要在规则内,在竞争中合作。” 基于了未来发展和竞争现状,诸如AT&T这样的运营商已经拥抱NFV和分布式计算,以支持应用交付、机器学习和大数据分析来管理基础设施。这些演变需要在数据中心不断发展的前提下实现,以确保大型数据集和IO密集型工作负载的性能。 普通于云计算的企业工作负载是计算密集型的,但不一定是IO密集型。因此,使用NFV和云计算的通信应用程序需要更高要求的网络结构。运用NFV的运营商,需要收集大...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7设置SWAP分区,小内存服务器的救世主
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7,8上快速安装Gitea,搭建Git服务器