【云栖号案例 | 互联网】小打卡:快速部署大数据计算平台实践
云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!
案例背景
小打卡致力于帮助用户成为更好的自己。目前,已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。
在小打卡上线初期,业务分析所需的数据主要是通过查询mysql库表。
现在,小打卡的主要业务分析需求,包括业务报表,用户行为分析,A/B/n实验评估,个性化推荐,数据服务等全部是借助于阿里云的大数据平台来满足。
选择阿里云大数据产品的原因:
1.成本低
享用阿里云超大规模的云计算资源,按照实际需要采购存储和计算资源。
企业无需组建专门的大数据平台部署和运维团队,在业务发展初期,极大的降低了拥有大数据平台的各项成本。
2.效率高
企业通过阿里云官网了解并采购所需的大数据产品,快速搭建适合业务的平台架构
阿里云大数据提供开发生产环境隔离的集成开发环境,以及完善的调度/监控/数据管理等工具能力,提高数据仓库的开发效率
企业可以快速构建大数据平台的功能模块,快速相应业务需求
3.性能按需采购
阿里云大数据的I/O及计算能力弹性伸缩,可以支持TB/PB/EB级数据规模,千万级别复杂任务调度和万兆的网络同步速率。
4.安全
阿里云大数据提供云上数据的安全,以及企业租户之间的安全隔离,大数据项目不同角色的权限管理和各种数据资源的权限管理。
大数据实践
小打卡基于阿里云大数据产品实现的离线数仓架构:
面向小打卡的各项业务场景,所需的基本产品搭配:
1.用户行为分析 :DataWorks + 数据集成 + MaxCompute + Quick BI
2.数据化运营:DataWorks + 数据集成 + MaxCompute + RDS
3.线上数据服务:DataWorks + 数据集成 + MaxCompute + OTS/API网关
4.推荐系统:DataWorks + 数据集成 + MaxCompute + PAI + OSS
- 实践case:
1.业务分析需求:监控每小时访问小打卡小程序的新增用户数及活跃用户数
2.阿里云大数据产品搭配:DataWorks + 数据集成 + MaxCompute + Quick BI
- DataWorks:DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
- MaxCompute:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。
数据集成:数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。
- Quick BI:uick BI是阿里云旗下产品,是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。
3.用2-3个工作日,快速搭建大数据平台:
步骤一:注册阿里云账号,开通DataWorks及Quick BI
步骤二:快速建设数仓
1)在DataWork控制台创建工作空间
小打卡将原始数据的采集层和中间公共数据的加工层分别部署在独立的项目中。
2)DataWorks平台中集成了数据集成和MaxCompute等大数据产品,可以一站式的开发。
在DataStudio(大数据集成开发环境工具)中建设数据仓库,创建业务流程,物理模型,数据集成任务及ETL任务。
业务流程帮助企业总结业务的一般流程,来有效组织相互依赖的数据流,数据集成任务,ETL任务,数据表和UDF等其他资源。
数据集成可以帮助企业从异构数据源采集数据并沉淀到数据仓库
阿里云的数据集成提供丰富的数据源支持:
- 文本存储(FTP/SFTP/OSS/多媒体文件等)
- 数据库(RDS/DRDS/MySQL/PostgreSQL等)
- NoSQL(Memcache/Redis/MongoDB/HBase等)
- 大数据(MaxCompute/AnalyticDB/HDFS等)
- MPP数据库(HybridDB for MySQL等)
继续在DataStudio中开发物理模型和ETL任务。
发布任务流程,并在运维中心中调度和监控
3)将数据接入Quick BI,交付业务部门使用。
目前由于小打卡分析业务的团队规模较小,仅有10-20人的规模,所以当前的架构是直接读取MaxCompute中的数据。这样做的好处是省钱,非常省钱,部署也是非常的快速。
但是缺点则是查询速度较慢,只能维持在秒级,且报表的查询并法度有瓶颈。后续随着分析团队规模的增加,会适时的优化架构,引入分析型数据库产品ADB来提供毫秒级的速度和高并发的查询性能。
云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
【云栖号案例 | 互联网】小打卡:基于 MaxCompute+PAI 的推荐算法实践
云栖号案例库:【点击查看更多上云案例】不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 案例背景 小打卡是国内最大的兴趣社群平台,每天能够产生上百万条新的内容。在这样超大的内容生产背景下,平台也面临着千人千面、内容分发上的巨大挑战。依托于阿里云MaxCompute,小打卡已经完成了TB级数据仓库方案。在此基础之上,结合机器学习PAI,实现了千人千面的推荐算法。本文将从技术选型、推荐架构、开源算法结合三个方面,讲述小打卡在MaxCompute上的一些实战经验。 为什么选择MaxCompute MaxCompute是阿里云完全自研的一种快速、完全托管的TB/PB级的数据仓库解决方案,并且上层提供了DataWorks以实现工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。除此之外,MaxCompute还与阿里云服务的多个产品集成,比如: 数据集成完成MaxCompute与各种数据源的相互同步 机器学习PAI实现直接基于MaxCompute完成数据处理、模型训练、服务部署的一站式机器学习 QuickBI对MaxCompute表数据进行报表制作,...
- 下一篇
架构师成长系列 | 从 2019 到 2020,Apache Dubbo 年度回顾与总结
作者 | 刘军(陆龟)Apache Dubbo PMC 本文整理自架构师成长系列 2 月 18 日直播课程。 关注“阿里巴巴云原生”公众号,回复“218”,即可获取对应直播回放链接及 PPT 下载链接。 导读:Apache Dubbo 是一款开源的 RPC 框架,其提供了简单易用、高性能的 RPC 能力、灵活可控的扩展、强大的服务治理,目前已有 Java、Go、JS、Python 等多个语言支持;并且已经悄然衍进为 Cloud Native 基础设施。这一切成就都离不开 Dubbo 社区的建设,本文将由 Apache Dubbo PMC 刘军来介绍 Dubbo 社区在过去的一年取得的成绩及未来 Dubbo 社区的发展新规划。 非常感谢大家对 Dubbo 社区的关注,通过这篇文章我们将: 总结过去一年 Dubbo 社区取得的成绩,包括社区和
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- Hadoop3单机部署,实现最简伪集群
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Linux系统CentOS6、CentOS7手动修改IP地址