Spark 2.0 预览：更简单，更快，更智能-低调大师

Spark 2.0 预览：更简单，更快，更智能

2017-06-01 656

Apache Spark 2.0 技术预览在 Databricks Community Edition 发布。该预览包使用upstream branch-2.0构建，当启动Cluster时，使用预览包和选择“2.0 (Tech Preview)” 一样简单。

离最终的Apache Spark 2.0发布还有几个星期，现在先来看看有什么新特性：

更简单：SQL和简化的API

Spark 2.0依然拥有标准的SQL支持和统一的DataFrame/Dataset API。但我们扩展了Spark的SQL 性能，引进了一个新的ANSI SQL解析器并支持子查询。Spark 2.0可以运行所有的99 TPC-DS的查询，这需要很多的SQL：2003功能。

在编程API方面，我们已经简化了API：

统一Scala/Java下的DataFrames 和 Datasets

SparkSession

更简单、更高性能的Accumulator API

基于DataFrame的Machine Learning API 将成为主要的ML API

Machine Learning 管道持久性

R中的分布式算法

更快：Spark 作为一个编译器

Spark 2.0将拥有更快的速度，下图是Spark 2.0和Spark 1.6的速度对比图：

更智能：结构化数据流

通过在DataFrames之上构建持久化的应用程序来不断简化数据流，允许我们统一数据流，支持交互和批量查询。

文章转载自开源中国社区[http://www.oschina.net]

微信关注我们

原文链接：https://yq.aliyun.com/articles/110678

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark VS Hadoop 两大大数据分析系统深度解读

大数据，无论是从产业上，还是从技术上来看，都是目前的发展热点。在中国，政府控制着80%的数据，剩下的多由“BAT”这样的大公司拥有，中小企业如何构建自己的大数据系统？其他企业如何建设自己的大数据系统？推荐两大应用最广泛、国人认知最多的Apache开源大数据框架系统：Spark Hadoop Spark：速度快、易于使用Spark以性能见长，但是它也因易用性而小有名气，原因是它随带易于使用的API，支持Scala（原生语言）、Java、Python和Spark SQL。Spark SQL非常类似于SQL 92，所以几乎不需要经历一番学习，马上可以上手。 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 Spark还有一种交互模式，那样开发人员...

2017-06-01

514

【编者的话】如果能在一台服务器上应用人工智能和机器学习算法处理每天的股票交易，而自己则在夏威夷的海滩上享受生活，那将是多么惬意呀。虽然股票价格的变化受多种因素的影响，世上也没有免费的午餐，但是有些公司依然能够借助于开源的机器学习算法和数据分析平台得到“更好、更健康、更便宜的午餐”。本文搜集并整理了一些如何实现实时股票分析系统的资料，从架构和算法两个层面给出了一种可行的方案。虽然股票交易市场一直在持续地变化，经济力量、新产品、竞争、全球性的事件、法规、甚至是Tweet都有可能引起市场的变动，但是在这个市场上，使用不同的模型通过股票的历史价格来预测未来的价格依然是一种常见的实践。一个实时的股票分析系统不仅需要将影响股票价格的各种数据集合起来进行分析，还需要具有响应低延迟的特性，因而架构必须是高可伸缩、高扩展的，一方面随着时间的流逝，系统将存储越来越多的数据；另一方面数据处理应用程序必须能够通过添加更多的节点进行水平扩展以保持实时地响应速度。来自于Pivotal公司的企业应用解决方案架构师William Markito最近在公司的博客上发表了题为《实时股票预测系统开源参考架构》...

2017-06-01

799

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。