【译】用SQL统一所有:一种有效的、语法惯用的流和表管理方法
现在还没有一个统一的流式SQL语法标准,各家都在做自己的。本文在一些业界应用的基础上提出了一个统一SQL语法的建议。Spark同样存在这个问题,社区版本在流式SQL上迟迟没有动作。EMR Spark在今年上半年提供了自己设计版本的流式SQL支持,也会在后续的更新中吸收和支持这些优秀的设计建议。
原文:https://blog.acolyer.org/2019/07/03/one-sql-to-rule-them-all/
在数据处理方面,似乎最终都会回归到SQL
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
海量数据下的舆情分析,该如何搭建?
阿里妹导读:互联网的飞速发展促进了很多新媒体的发展,不论是知名的大V,明星还是围观群众都可以通过手机在微博、朋友圈或者点评网站上发表动态,分享自己的所见所想,使得“人人都有了麦克风”。不论是热点新闻还是娱乐八卦,传播速度远超我们的想象,一则信息可以在短短数分钟内,有数万计转发,数百万的阅读。海量信息可以得到爆炸式的传播,那么如何实时把握信息并作出对应的处理呢?是不是真的难以应对?今天,阿里云智能事业群的宇珩来跟我们聊聊大数据舆情系统对数据存储和计算系统会有哪些需求,如何根据需求来进行系统设计。 大数据时代下,除了媒体信息以外,商品在各类电商平台的订单量、用户的购买评论,都会对后续的消费者产生很大的影响。商家的产品设计者需要汇总统计和分析各类平台的数据做为依据,决定后续的产品发展,公司的公关和市场部门也需要根据舆情作出相应的及时处理,而这一切也意味着传统的舆情系统升级成为大数据舆情采集和分析系统。具体细化看下大数据舆情系统,对我们的数据存储和计算系统提出了以下需求: 海量原始数据的实时入库:为了实现一整套舆情系统,需要有上游原始输出的采集,也就是爬虫系统。爬虫需要采集各类门户,自媒体的网...
- 下一篇
MaxCompute问答整理之6月
本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助,下面咱们正式开始。 1、什么是MaxCompute呢?MaxCompute是由阿里人自主研发的海量数据处理平台,可以称它为计算引擎。它主要提供针对TB/PB级数据、实时性要求不高的分布式处理能力,主要服务于批量结构化数据的存储和计算。简单来说呢,就是数据要存到MaxCompute里面,需要的时候再取出来。 2、为什么要使用MaxCompute呢?MaxCompute的特点可以简单总结为5点:开箱即用在线服务,五分钟即可开通大数据平台。高效能低成本,持续高效低成本的大数据引擎。支持多种分布式计算模型,满足不同场景下的技术需求。生态融合,支持多样数据源、生态工具和标准。安全可靠,多租户数据安全保障机制。 3、使用MaxCom
相关文章
文章评论
共有0条评论来说两句吧...