【转载】时隔一年多,我又用起了 Superset
去年 6 月份在流利说提离职后,leader 问我为什么要走。我说,流利说有很健全的数据处理基础设施,但这不是所有的公司都会有的条件,所以我想看看在一个基建不全的创业公司我是否也可以像现在一样做的好。
7 月份正式离职到了现在的公司,一开始靠数着运营后台的订单,看着公众号后台的涨粉,配合友盟拿到的分享数据,拉了张 EXCEL 大表就开始预测着未来的营收支出。在业务蒸蒸日上的时候,给出的预测结果表现的也是很让人满意,隔壁公司的黄老板还天天跑来串门问怎么预测的。
预测的结果看起来十分的美好,但是它其实需要有很多的前提假设成立才能站得住脚,比如用户大体的表现是一致的,又比如投放成本不会过高,再比如微信不会打击朋友圈打卡。所以我迫切的希望了解事实是否像我们假设的那般美好,我开始提议希望能在这家公司建立第一套数据基建 —— 自采集埋点配合数据库
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
探寻流式计算
一、静态数据和流数据 静态数据:为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。 流数据:以大量、快速、时变的流形式持续到达的数据。(例如:实时产生的日志、用户实时交易信息) 流数据具有以下特点: (1)、数据快速持续到达,潜在大小也许是无穷无尽的。(2)、数据来源众多,格式复杂。(3)、数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储(存储于数据仓库)。(4)、注重数据的整体价值,不过分关注个别数据。(5)、数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序。 在传统的数据处理流程中,总是先收集数据,然后将数据放到DB中。然后对DB中的数据进行处理。 流计算:为了实现数据的时效性,实时消费获取的数据。 二、批量计算和流计算 批量计算:充裕时间处理静态数据,如Hadoop。实时性要求不高。 流计算:实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息(实时、多数据结构、海量)。 流计算秉承一个基本理念,即数据的价值随着时间的流逝而降低,如用户点击流。因此,当事件出现时就应该立即进行处理,而不是缓存起来进...
- 下一篇
通过EMR Spark Streaming实时读取Tablestore数据
本文将介绍如何在E-MapReduce中实时流式的处理Tablestore中的数据。 场景设计 随着互联网的发展,企业中积累的数据越来越多,数据的背后隐藏着巨大的价值,在双十一这样的节日中,电子商务企业都会在大屏幕上实时显示订单总量,由于订单总量巨大,不可能每隔一秒就到数据库中进行一次SQL统计,此时就需要用到流计算,而传统的方法都是需要借助Kafka消息队列来做流式计算,数据订单需要写入数据库与Kafka中,Spark Streaming 消费来自Kafka中的订单信息。而本文使用的Tablestore数据库可以直接利用它的通道服务功能,供Spark Streaming流式消费,进而计算订单的数量及金额,简化了整个流程,具体如下图所示本文将介绍一个简单的demo,流式统计Tablestore数据表中字段出现的个数。 前提条件 确保将Ta
相关文章
文章评论
共有0条评论来说两句吧...