【云栖号案例 | 互联网】墨迹天气:分析日志大数据,洞察用户需求
云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!
公司简介
我们是北京墨迹风云科技股份有限公司,于2010年成立,是一家以“做卓越的天气服务公司”为目标的新兴移动互联网公司,主要开发和运营的“墨迹天气”是一款免费的天气信息查询软件。我们公司的“墨迹天气”APP目前在全球约有超过5亿人在使用,支持196个国家70多万个城市及地区的天气查询,分钟级、公里级天气预报,实时预报雨雪。提供15天天气预报,5天空气质量预报,实时空气质量及空气质量等级预报,其短时预报功能,可实现未来2小时内,每10分钟一次,预测逐分钟逐公里的天气情况。特殊天气提前发送预警信息,帮助用户更好做出生活决策。
在我们的墨迹天气APP上,每天有超过 5 亿次的天气查询需求和将近20亿次的广告请求,这个数字甚至要大于 Twitter 每天发帖量。我们的墨迹天气APP已经集成了多语言版本,可根据手机系统语言自动适配,用户覆盖包括中国大陆、港澳台,日韩及东南亚、欧美等全球各地用户。
业务痛点
我们的运营团队每天最关心的是用户正在如何使用墨迹,在用户操作中透露了哪些个性化需求。这些数据全部存储在墨迹的API日志中,对这些数据分析,就变成了运营团队每天的最重要的工作。我们墨迹天气的API每天产生的日志量大约在2TB左右,主要的日志分析场景是天气查询业务和广告业务。“用户每天产生的日志量大约在2TB。我们需要将这些海量的数据导入云端,然后分天、分小时的展开数据分析作业,分析结果再导入数据库和报表系统,最终展示在运营人员面前。整个过程中数据量庞大,且计算复杂,这对云平台的大数据能力、生态完整性和开放性提出了很高的要求。
我们之前使用国外某云计算服务公司的云服务器存储这些数据,利用Hadoop的MapReducer和Hive对数据进行处理分析,但是存在以下问题:
- 成本:包括存储、计算及大数据处理服务成本对比阿里云成本很高。
- 网络带宽:移动端业务量大,需要大量的网络带宽资源支持,但数据上传也需要占用网络带宽,彼此之间相互干扰造成数据传输不稳定。
解决方案
图 1. 墨迹天气日志分析解决方案架构
日志分析:
- 天气业务日志:
1.解析后的日志数据通过DataWork直接写入MaxCompute。
2.在DataIDE中进行数据汇总与统计。
3.数据和统计结果由MaxCompute同步到ECS。
4.最终将数据备份到本地数据库,并输出分析报表。
- 广告业务日志:
1.日志实时写入MaxCompute。
2.在DataIDE中加工解析之后的中间结果输出到MaxCompute。
3.DataIDE汇总并统计数据。
4.通过MaxCompute同步数据和统计结果到云上数据库中。
5.最终将数据备份到本地数据库,并输出分析报表。
网络带宽:
由于每天产生的数据量较大,上传数据会占用带宽,为了不影响业务系统的网络资源,我们开通了阿里云高速通道,用于数据上传。通过此种手段解决了网络带宽的问题。
上云价值
- 迁移到MaxCompute后,流程上做了优化,省掉了编写MR程序的工作,日志数据全部通过SQL进行分析,运营我们育婴工作效率提升了5倍以上。
- 存储方面,MaxCompute的表按列压缩存储,更节省存储空间,整体存储和计算的费用比之前省了70%,性能和稳定性也有很大提升。
- 可以借助MaxCompute上的机器学习算法,对数据进行深度挖掘,为我们的产品用户提供个性化的服务。
- 阿里云MaxCompute提供更为易用、全面的大数据分析功能。MaxCompute可根据业务情况做到计算资源自动弹性伸缩,天然集成存储功能。通过简单的几项配置操作后,即可完成数据上传,同时实现了多种开源软件的对接。
相关产品
- 大数据计算服务 · MaxCompute
MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页。
- 云数据库MongoDB版
云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。
更多关于云数据库MongoDB版的介绍,参见云数据库MongoDB版产品详情页。
- 云服务器ECS
云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。
更多关于云服务器ECS的介绍,参见云服务器ECS产品详情页。
- DataWorks
DataWorks是一个提供了大数据OS能力、并以all in one box的方式提供专业高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、质量管理需求,赋予用户对外提供数据服务的能力。
更多关于阿里云DataWorks的介绍,参见DataWorks 产品详情页。
【云栖号在线课堂】每天都有产品技术专家分享!
在线课堂地址:https://yqh.aliyun.com/zhibo立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
云栖号在线课堂—云服务器&数据库快速入门特辑
目前阿里云为用户提供丰富的云服务器ECS产品,不同系列ECS之间存在较大差异,选择合适的ECS,是业务起飞的第一步!除了基础的ECS产品选型和技术揭秘,还有阿里专家分享的ECS+迁云工具轻松上云最佳实践、ECS弹性伸缩最佳实践、云上大数据分析最佳实践以及云上资源编排模板开发实战等等。 另外,也可以了解目前丰富的阿里云数据库产品线,让大家对于产品的简单特性有所了解。在数据库的日常运维过程中,很多人都会特别关注数据安全,那么如何提升我们的数据安全性呢?针对近期企业数据库安全事故频发的现象,阿里云数据库事业部特别推出多种产品安全问题解决方案,助力企业共同抵御风险! 云栖号在线课堂,每天都有产品技术专家分享,带你快速入门云计算!今天我们就来看一看云服务器和数据库的那些事儿~ 云服务器快速入门 ECS产品选型 阿里云弹性计算产品专家义宸将为大家介绍阿里云ECS产品选型及常见问题。 全新产品s6发布会 新品S6首发 360°技术揭密——ECS家族新成员,更高性价比之选 迁云工具介绍及最佳实践 ECS+迁云工具 助力业务快速上云——线下迁移太麻烦?阿里云最强段子手带你轻松上云。 ECS采购季省钱攻略...
- 下一篇
Spark 3.0 终于支持 event logs 滚动了
背景 相信经常使用 Spark 的同学肯定知道 Spark 支持将作业的 event log 保存到持久化设备。默认这个功能是关闭的,不过我们可以通过 spark.eventLog.enabled 参数来启用这个功能,并且通过 spark.eventLog.dir 参数来指定 event log 保存的地方,可以是本地目录或者 HDFS 上的目录,不过一般我们都会将它设置成 HDFS 上的一个目录。 但是这个功能有个问题,就是这个 Spark Job 运行的过程中产生的所有 event log 都是写到单个文件中,这就导致了 event log 文件的大小和这个 Spark Job 的并行度、复杂度以及运行的时间有很大关系。如果我们是运行 Spark Streaming 作业,这个问题特别明显,我们经常看到某个 Spark Strea
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Mario游戏-低调大师作品
- CentOS关闭SELinux安全模块
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8编译安装MySQL8.0.19
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS6,CentOS7官方镜像安装Oracle11G