【大数据】Uber的数据架构-低调大师

【大数据】Uber的数据架构

2018-08-19 718

三月份小编在美国参加MVP峰会的时候，有幸碰到了几个Uber的高级工程师，他们在当天还分享了Uber的消息总线系统如何在每日兆级信息量、PB级数据卷、数万个Topic的情况下，保证低延时（小于5ms），高可用（99.99%）,高稳定（99.99%，核心客户100%）的。

有朋友对Uber这种打车软件公司能达到这样的数据量感到不以为然，认为只有社交类（如Facebook、领英，微信）和在线零售（如Ebay、亚马逊，淘宝）的公司才有这样的体量。其实上述的数据量只是Uber的单个数据副本，作为一家遍布全球超过400个城市的出行公司，Uber需要存储世界各地的地图数据；其次，它还需要对这些城市的交通状况做出精确分析，以便对任意时间的路面进行预测；最后，Uber内部还有分析师和数据科学家需要调阅每周的财务收支情况及用户反馈，以及时调整运营策略或调整路线算法。

总体来说，Uber的数据生产者分为两类，一是核心业务数据，包括：

乘客信息、司机信息
路程规划、账单
司机状态变更
订单、可用车辆、定价

以上数据对可用性、实时性要求非常高，因此存储在在线数据库（OLTP）中。

第二类数据是日志和事件数据。就在几年前，Uber从传统SOA框架转为微服务，它使运维和开发变得更灵活，并支持非关系型数据库。

而日志作为非结构化的数据，不适用于关系型数据库，这类数据包括：

微服务架构
数据分析
需求跟踪，调试
实时数据

这部分数据使用流式的Kafka消息总线作为其核心传输模块。

上图中左边是消息生产者，包括乘客端App，司机端App，以及第三方应用通过调用Uber的API采集来的消息。消息的生产者还包括一部分数据库，来存放用户操作记录等信息：其中MySQL用于存放结构化数据；Schemaless主要存放非结构化数据；Cassandra用来存放需要在各数据中心之间同步的核心数据（因为其低延迟的复制效率）。通过Kafka的处理，再由不同的消费者各取所需，例如Surge拉取数据计算车费；ELK拉取实时日志数据生成运行状态仪表盘；AWS S3和Hadoop拉取数据做一些实时性要求不那么高的离线数据处理。
为保证总线的高可用，每个站点还部署有备用Kafka，以便在主Kafka集群宕机时，将生产者的数据缓存下来，等主集群恢复了再切换回去。不同数据中心的Kafka通过uReplicator（Kafka的镜像生成器）进行汇总后输出。

当然全局的和本地的数据都有消费市场，比如全局有补丁管理，本地化有计价系统，他们在上图不同的Kafka之后（Regional或Aggregate）被依次消费掉。

不光如此，不同的消费者对于数据是有不同的需求维度的。近些年来新的数据库层出不穷，尤其是NoSQL数据库赶上了好时代而层出不穷，小编常被问及哪个数据库最强大，其实这并没有定论，关键要看需求的维度。

消费者对于数据的要求无非以下六个维度：

响应速度：如果数据库性能足够强大，没有附加串联系统，数据都在内存中交互，那响应速度无疑是可以保证的
查询便捷性：要开放更多的查询维度（或者说更多的查询条件），势必要定义更多的Key，因此会牺牲数据库性能，最明显的是响应延时；
安全性：Uber的数据调取需要经过反欺诈等系统的过滤，因此加强数据安全也会带来延时；
数据可靠性：有些高访问量的应用为了提高用户体验，会在（交易）数据入库前就将后续指令返回给用户了。

比如用户在某购物APP上买一双鞋，交易在进入数据库之前可能就会向用户征收费用，这一方面是为了用户体验，另一方面大部分数据库同一时间只有一个读写副本，有时数据写入磁盘确实是个漫长的等待过程，所以APP将交易提交给后端缓存就认为交易已经入库，可以开始收费，但如果这时数据库宕机了，缓存数据丢失了，那就等于收了客户的钱没有给客户发货，因为数据库里没有这笔订单。当然订单入库再返回响应势必会慢很多，因为磁盘读写速度是远不及内存的，这一点又是与用户体验之间的博弈。
很多数据库默认都是异步写入，比如MongoDB，它甚至写入成功后也不会返回给应用任何确认入库的信息；再比如Redis，它完全就是一个不可靠的数据库，他会给数据做快照，但快照不会存入磁盘，因此Redis只能用于数据缓存层。

数据一致性：逛论坛的朋友经常会碰到这样的事情，就是一个主题或者一个回复我明明只发了一次，刷新页面却蹦出来一堆，这就是数据库的一致性检查没做好。一般的控制方法是限制单位时间的更新频率，或者优化业务逻辑，当然这也要牺牲一部分数据库性能。
系统可用性：可用性，一般是指当某个数据中心发生灾难时，应用是否依然可用，数据是否依然可以访问。

在显然无法兼顾所有维度的前提下，作为一款打车软件，在保证响应速度、安全性、查询便捷性和系统高可用的情况下，适度地放弃数据一致性和可靠性是可以接收的。另外，可延展性（Scalability）是Kafka及其消费端软件本身就具有的特点。

微信关注我们

原文链接：https://yq.aliyun.com/articles/626484

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

mvp架构优化

MVP优化的结构 mvp结构图.png view的结构 BaseView public interface BaseView { void showLoading(); void hideLoading(); } NewMvpView public interface NewMvpView extends BaseView { void setListItem(List<String> data); void showMessage(String message); } presenter结构 BasePresenter public abstract class BasePresenter<T> { public T mView; public void attach(T mView){ this.mView = mView; } public void dettach(){ mView = null; } } NewMvpPresenter public class NewMvpPresenter extends BasePresenter<NewMv...

2018-08-19

729

为什么程序员千万不要重写代码? 你所做的事情，也许暂时看不到成果，但不要灰心或焦虑，你不是没有成长，而是在扎根。图片来自网络 0 前言程序员都有一颗工程师的心，所以当他们到一片新的场地想做的第一件事就是，将旧的一切推倒重来。是的，他们决不会满足于简单的增量劳动。或许这种微妙的心理定位可以解释：为什么程序员进入新项目组后宁愿丢掉旧代码重新写，也不愿意修修补补，他们认为旧代码简直一团糟。但是，事实上真是这样吗？你之所以认为旧代码一团糟，其实是由编程的一个基本定律决定的，那就是：写代码容易，读代码难。 1 为什么你觉得旧代码异常混乱？因为读代码更难这大概就是代码Reuse难以实现的原因，也可以解释为什么你组里的每个人都喜欢用不同的功能将分割的字符串转换成一个数组。比起猜测旧的功能是怎样实现的，重新写一个自己的功能要简单和有趣多了。作为这个公理的推论，你可以问问身边的程序员他们正在奋战的代码怎么样？“简直是一塌糊涂！”他们肯定会这样说。“我简直想推倒重来！” 为什么认为代码这么糟糕呢？“额，看看这个功能，竟然有两页长！完全不知道这些东西为什么在这里！完全不知道这些API是干什么的。...

2018-08-20

627

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。