Bossies:最佳开源大数据工具
处理大数据可能会遇到各种各样的问题,目前没有任何工具可以完美地处理这一切——即便是Spark。在今年的 Bossie开源大数据工具中,你会发现最新最好的方法是利用大型集群进行索引、搜索、图形处理、流处理、结构化查询、分布式OLAP和机器学习,因为众多处理器和RAM可降低工作量级。 Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了13款最佳开源大数据工具,Spark、Beam都名列榜单之上。 Spark Spark是写在Scala中的内存分布式处理框架,在Apache的大数据项目中非常火爆。随着Spark 2.0版本的发布,它的优势似乎在延续。除了SQL语句实现等基础功能,新版本的Spark在性能上也大幅提升。Spark 2.0在DataFrames的基础上进一步完善,比如新的Structured Streaming API 等。这一切改变使Spark程序员的操作更清楚简单,但Structured Streaming 可能会有较大改变。 从RDD的批处理进程转变为无边界的D...