Delta Lake，让你从复杂的Lambda架构中解放出来-低调大师

Delta Lake，让你从复杂的Lambda架构中解放出来

2020-03-08 710

作者介绍
李潇，现就职于 Databricks，管理两跨国团队，专注于 Apache Spark, Databricks Runtime 和 Koalas 的开发和建设。他是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学，后在佛罗里达大学（University of Florida）获计算机博士学位，曾就职于 IBM，获发明大师称号（Master Inventor），在数据处理领域发表专利十余篇。（Github: gatorsmile）

本文转自公众号：AI前线
原文链接：https://mp.weixin.qq.com/s/ZNwW4L6JiusQ1S0BSmVj8g

今天我跟大家分享一下 Data Lake 和 Delta 架构。

2019 年 10 月 16 日，在荷兰阿姆斯特丹举行的 Spark+AI

微信关注我们

原文链接：https://yq.aliyun.com/articles/748655

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

使用SparkSql 读取ES数据

对于大批量数据，查询es时，需要带条件去查询，否则一下查出所有数据数据量会很大 es查询需要编写json格式的DSL查询语句，对于复杂查询，DSL编写起来也分很复杂，所以我们这里使用sparksql，通过编写sql语句，spark将sql语句自动转化为DSL语句来查询es。关于es对spark的支持可参见文档，官网 https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html 废话不多说，上代码 case class people（phone:String） val sparkConf = new SparkConf().setAppName("application-name").setMaster("local[4]") val sc = new SparkContext(sparkConf) val sql = new SQLContext(sc) import sql.implicits._ //配置 val options = Map( "pushdown" -> "true", "es....

2020-03-06

1396

Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个服务器的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目(items)存储以供后续处理使用。scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。说白了，就是使用redis来维护一个url队列,然后scrapy爬虫都连接这一个redis获取url,且当爬虫在redis处拿走了一个url后,redis会将这个url从队列中清除,保证不会被2个爬虫拿到同一个url,即使可能2个爬虫同时请求拿到同一个url,在返回结果的时候redis还会再做一次去重处理,所以这样就能达到分布式效果,我们拿一台主机做redis 队列,然后在其他主机上运行爬虫.且scrapy-r...

2020-03-05

662

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。