【云栖号案例 | 互联网】小打卡：快速部署大数据计算平台实践-低调大师

【云栖号案例 | 互联网】小打卡：快速部署大数据计算平台实践

2020-02-27 601

云栖号案例库：【点击查看更多上云案例】
不知道怎么上云？看云栖号案例库，了解不同行业不同发展阶段的上云方案，助力你上云决策！

案例背景

小打卡致力于帮助用户成为更好的自己。目前，已为3000万用户提供体验服务3.4亿人次，内容消费7.4亿人次。
在小打卡上线初期，业务分析所需的数据主要是通过查询mysql库表。
现在，小打卡的主要业务分析需求，包括业务报表，用户行为分析，A/B/n实验评估，个性化推荐，数据服务等全部是借助于阿里云的大数据平台来满足。

选择阿里云大数据产品的原因：

1.成本低
享用阿里云超大规模的云计算资源，按照实际需要采购存储和计算资源。
企业无需组建专门的大数据平台部署和运维团队，在业务发展初期，极大的降低了拥有大数据平台的各项成本。
2.效率高
企业通过阿里云官网了解并采购所需的大数据产品，快速搭建适合业务的平台架构
阿里云大数据提供开发生产环境隔离的集成开发环境，以及完善的调度/监控/数据管理等工具能力，提高数据仓库的开发效率
企业可以快速构建大数据平台的功能模块，快速相应业务需求
3.性能按需采购
阿里云大数据的I/O及计算能力弹性伸缩，可以支持TB/PB/EB级数据规模，千万级别复杂任务调度和万兆的网络同步速率。
4.安全
阿里云大数据提供云上数据的安全，以及企业租户之间的安全隔离，大数据项目不同角色的权限管理和各种数据资源的权限管理。

大数据实践

小打卡基于阿里云大数据产品实现的离线数仓架构：

面向小打卡的各项业务场景，所需的基本产品搭配：

1.用户行为分析：DataWorks + 数据集成 + MaxCompute + Quick BI
2.数据化运营：DataWorks + 数据集成 + MaxCompute + RDS
3.线上数据服务：DataWorks + 数据集成 + MaxCompute + OTS/API网关
4.推荐系统：DataWorks + 数据集成 + MaxCompute + PAI + OSS

实践case：

1.业务分析需求：监控每小时访问小打卡小程序的新增用户数及活跃用户数
2.阿里云大数据产品搭配：DataWorks + 数据集成 + MaxCompute + Quick BI

- DataWorks：DataWorks（数据工场，原大数据开发套件）是阿里云数加重要的PaaS平台产品，提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘和探索。

- MaxCompute：大数据计算服务（MaxCompute，原名ODPS）是一种快速、完全托管的EB级数据仓库解决方案。
数据集成：数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

Quick BI：uick BI是阿里云旗下产品，是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。

3.用2-3个工作日，快速搭建大数据平台：

步骤一：注册阿里云账号，开通DataWorks及Quick BI
步骤二：快速建设数仓

1）在DataWork控制台创建工作空间
小打卡将原始数据的采集层和中间公共数据的加工层分别部署在独立的项目中。

2）DataWorks平台中集成了数据集成和MaxCompute等大数据产品，可以一站式的开发。

在DataStudio(大数据集成开发环境工具)中建设数据仓库，创建业务流程，物理模型，数据集成任务及ETL任务。

业务流程帮助企业总结业务的一般流程，来有效组织相互依赖的数据流，数据集成任务，ETL任务，数据表和UDF等其他资源。

数据集成可以帮助企业从异构数据源采集数据并沉淀到数据仓库

阿里云的数据集成提供丰富的数据源支持：

文本存储（FTP/SFTP/OSS/多媒体文件等）
数据库（RDS/DRDS/MySQL/PostgreSQL等）
NoSQL（Memcache/Redis/MongoDB/HBase等）
大数据（MaxCompute/AnalyticDB/HDFS等）
MPP数据库（HybridDB for MySQL等）

继续在DataStudio中开发物理模型和ETL任务。

发布任务流程，并在运维中心中调度和监控

3）将数据接入Quick BI，交付业务部门使用。

目前由于小打卡分析业务的团队规模较小，仅有10-20人的规模，所以当前的架构是直接读取MaxCompute中的数据。这样做的好处是省钱，非常省钱，部署也是非常的快速。

但是缺点则是查询速度较慢，只能维持在秒级，且报表的查询并法度有瓶颈。后续随着分析团队规模的增加，会适时的优化架构，引入分析型数据库产品ADB来提供毫秒级的速度和高并发的查询性能。

云栖号案例库：【点击查看更多上云案例】
不知道怎么上云？看云栖号案例库，了解不同行业不同发展阶段的上云方案，助力你上云决策！

微信关注我们

原文链接：https://yq.aliyun.com/articles/747075

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

【云栖号案例 | 互联网】小打卡：基于 MaxCompute+PAI 的推荐算法实践

云栖号案例库：【点击查看更多上云案例】不知道怎么上云？看云栖号案例库，了解不同行业不同发展阶段的上云方案，助力你上云决策！案例背景小打卡是国内最大的兴趣社群平台，每天能够产生上百万条新的内容。在这样超大的内容生产背景下，平台也面临着千人千面、内容分发上的巨大挑战。依托于阿里云MaxCompute，小打卡已经完成了TB级数据仓库方案。在此基础之上，结合机器学习PAI，实现了千人千面的推荐算法。本文将从技术选型、推荐架构、开源算法结合三个方面，讲述小打卡在MaxCompute上的一些实战经验。为什么选择MaxCompute MaxCompute是阿里云完全自研的一种快速、完全托管的TB/PB级的数据仓库解决方案，并且上层提供了DataWorks以实现工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。除此之外，MaxCompute还与阿里云服务的多个产品集成，比如：数据集成完成MaxCompute与各种数据源的相互同步机器学习PAI实现直接基于MaxCompute完成数据处理、模型训练、服务部署的一站式机器学习 QuickBI对MaxCompute表数据进行报表制作，...

2020-02-27

643

作者 | 刘军（陆龟）Apache Dubbo PMC 本文整理自架构师成长系列 2 月 18 日直播课程。关注“阿里巴巴云原生”公众号，回复“218”，即可获取对应直播回放链接及 PPT 下载链接。导读：Apache Dubbo 是一款开源的 RPC 框架，其提供了简单易用、高性能的 RPC 能力、灵活可控的扩展、强大的服务治理，目前已有 Java、Go、JS、Python 等多个语言支持；并且已经悄然衍进为 Cloud Native 基础设施。这一切成就都离不开 Dubbo 社区的建设，本文将由 Apache Dubbo PMC 刘军来介绍 Dubbo 社区在过去的一年取得的成绩及未来 Dubbo 社区的发展新规划。非常感谢大家对 Dubbo 社区的关注，通过这篇文章我们将：总结过去一年 Dubbo 社区取得的成绩，包括社区和

2020-02-27

665

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。