【云栖号案例 | 互联网】墨迹天气上云 分析日志大数据 洞察用户需求
云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!
公司简介
我们是北京墨迹风云科技股份有限公司,于2010年成立,是一家以“做卓越的天气服务公司”为目标的新兴移动互联网公司,主要开发和运营的“墨迹天气”是一款免费的天气信息查询软件。我们公司的“墨迹天气”APP目前在全球约有超过5亿人在使用,支持196个国家70多万个城市及地区的天气查询,分钟级、公里级天气预报,实时预报雨雪。提供15天天气预报,5天空气质量预报,实时空气质量及空气质量等级预报,其短时预报功能,可实现未来2小时内,每10分钟一次,预测逐分钟逐公里的天气情况。特殊天气提前发送预警信息,帮助用户更好做出生活决策。
在我们的墨迹天气APP上,每天有超过 5 亿次的天气查询需求和将近20亿次的广告请求,这个数字甚至要大于 Twitter 每天发帖量。我们的墨迹天气APP已经集成了多语言版本,可根据手机系统语言自动适配,用户覆盖包括中国大陆、港澳台,日韩及东南亚、欧美等全球各地用户。
业务痛点
我们的运营团队每天最关心的是用户正在如何使用墨迹,在用户操作中透露了哪些个性化需求。这些数据全部存储在墨迹的API日志中,对这些数据分析,就变成了运营团队每天的最重要的工作。我们墨迹天气的API每天产生的日志量大约在2TB左右,主要的日志分析场景是天气查询业务和广告业务。“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。
我们之前使用国外某云计算服务公司的云服务器存储这些数据,利用Hadoop的MapReducer和Hive对数据进行处理分析,但是存在以下问题:
- 成本:包括存储、计算及大数据处理服务成本对比阿里云成本很高。
- 网络带宽:移动端业务量大,需要大量的网络带宽资源支持,但数据上传也需要占用网络带宽,彼此之间相互干扰造成数据传输不稳定。
解决方案
图 1. 墨迹天气日志分析解决方案架构
日志分析:
- 天气业务日志:
1.解析后的日志数据通过DataWork直接写入MaxCompute。
2.在DataIDE中进行数据汇总与统计。
3.数据和统计结果由MaxCompute同步到ECS。
4.最终将数据备份到本地数据库,并输出分析报表。
- 广告业务日志:
1.日志实时写入MaxCompute。
2.在DataIDE中加工解析之后的中间结果输出到MaxCompute。
3.DataIDE汇总并统计数据。
4.通过MaxCompute同步数据和统计结果到云上数据库中。
5.最终将数据备份到本地数据库,并输出分析报表。
网络带宽:
由于每天产生的数据量较大,上传数据会占用带宽,为了不影响业务系统的网络资源,我们开通了阿里云高速通道,用于数据上传。通过此种手段解决了网络带宽的问题。
上云价值
- 迁移到MaxCompute后,流程上做了优化,省掉了编写MR程序的工作,日志数据全部通过SQL进行分析,运营我们运营工作效率提升了5倍以上。
- 存储方面,MaxCompute的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。
- 可以借助MaxCompute上的机器学习算法,对数据进行深度挖掘,为我们的产品用户提供个性化的服务。
- 阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。
相关产品
- 大数据计算服务 · MaxCompute
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页。
- 云数据库MongoDB版
云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。
更多关于云数据库MongoDB版的介绍,参见云数据库MongoDB版产品详情页。
- 云服务器ECS
云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。
更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页。
- DataWorks
DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、质量管理需求,赋予用户对外提供数据服务的能力。
更多关于阿里云DataWorks的介绍,参见DataWorks 产品详情页。
【云栖号在线课堂】每天都有产品技术专家分享!
在线课堂地址:https://yqh.aliyun.com/zhibo立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
CUBA Studio 13.1 发布,企业级应用开发平台
大家好,CUBA Studio 13.1 已发布,可以从这里下载最新版,或者直接在IDEA中更新CUBA插件。 CUBA Studio 13.1 主要修正以下问题: 1. 创建 front-end 模块时重复添加 REST API 依赖的问题 2. Studio 内置开发时容器 “Try shutdown” 功能不可用的问题 3. 新项目创建成功后会出现“NoSuchElementException“的问题 4. 新的登录界面模板缺失图标的问题 5. 创建枚举表单标题不正确的问题 6. 其它二十多项 Bug 修复 详细的Bug修复列表在这里。 CUBA Platform 是一款开源且免费的企业级应用开发框架,已有将近10年的发展历史,由俄罗斯的 Haulmont 公司开发。 CUBA Platform 已登陆中国,为中国开发人员提供了中文网站、中文学习资源、中文开发文档以及中文论坛,社区活跃度日益提升。有任何开发问题可访问 CUBA 平台中国官方网站来反馈和交流。 详细信息
- 下一篇
【云栖号案例 | 互联网】高德“一键”上云 实现核心数据“3点产出”
云栖号案例库:【点击查看更多上云案例】不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 公司简介 高德地图旗下的高德开放平台是国内技术领先的LBS服务提供商,拥有先进的数据融合技术和海量的数据处理能力。服务超过三十万款移动应用,日均处理定位请求及路径规划数百亿次。高德开放平台向广大开发者提供覆盖移动端和Web端的开发工具,开发者通过调用开发包或接口即可在应用或网页中实现地图显示、标注、位置检索等功能。使得LBS应用的开发过程更加容易。 高德正在进行的位置大数据探索与实践,高德地图开放平台通过其服务的三十万款应用,每日百亿级的位置请求和相关行为,对现实世界做了人群走向、区域热度、行为偏好等分析和洞察,试图通过数据画像还原一个在我们身边熟悉却又陌生的世界。 2014年高德的数据架构依赖Flume进行数据采集,依赖一个仅含几百台机器的hadoop集群和Hive等软件实现数据处理。2014年,高德的数据架构依赖Flume进行数据采集,依赖一个仅含几百台机器的hadoop集群和Hive等软件实现数据处理。2014年9月份高德内部提出“上云”,即将数据迁移到阿里...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境