Apache Beam欲通过uber api获取大数据
现在,有用的Apache大数据项目似乎每日更新。相比于每次都重新学习的方式,如果可以通过一个统一的API如何呢? 长期开玩笑说Hadoop生态系统是那种如果你不喜欢一个为特定系统的API,等待五分钟,两个新的Apache项目将出现随之而来崭新的API可供学习。 有很多要赶着学习。更糟糕的是,它会导致很多工作迁移到不同的项目仅仅为了保持通用性。“我们已经在暴风雨中实现了流媒体解决方案!现在我们已经快速地重做了!我们目前正在重写pache Flink(或Apex)的核心…我们已经忘记了起初我们试图解决的业务用例。 输入Apache Beam,一个试图统一数据处理框架有核心API的新项目,允许简单的执行引擎之间的移植。 现在,我知道你正在思考抛出另一个API。但Beam有很强的继承性。它来自谷歌并且其研究成果在Millwheel FlumeJava论文上,在多年的运营经验后其出版。它定义了一个有些熟悉的有向无环图数据处理引擎,可以处理无序传递成为常态的情况下的无限数据流,毫无例外。 但是稍等,我听到了你在叫喊。这不是谷歌云数据流吗?是的!也不是。谷歌云数据流是一个完全托管服务,你使用数据流S...