Delta Lake 平台化实践（离线篇)-低调大师

Delta Lake 平台化实践（离线篇)

2020-03-24 765

原文链接：https://blog.csdn.net/lsshlsw/article/details/103553289

博客主：breeze_lsw

01

SQL 支持

1.1 DML

背景

delta lake 0.4 只支持以 api 的方式使用 Delete/Update/Merge Into 等 DML，对习惯了使用 sql 的终端用户会增加其学习使用成本。

解决方式

下文通过 spark sql extension 以插件化的方式扩展 sql parser ，增加 DML 语法的支持。在 spark 推出 sql extension 功能前，也可以用通过 aspectj 通过拦截 sql 的方式实现增加自定义语法的功能。

1.在自定义扩展 g4 文件中相应的 antlr4 DML 语法，部分参考了 databricks 商业版的语法

st

微信关注我们

原文链接：https://yq.aliyun.com/articles/751501

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

生产环境使用HBase，你必须知道的最佳实践

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！前面，我们已经打下了很多关于HBase的理论基础，今天，我们主要聊聊在实际开发使用HBase中，需要关注的一些最佳实践经验。 Schema设计七大原则 1）每个region的大小应该控制在10G到50G之间； 2）一个表最好保持在 50到100个 region的规模； 3）每个cell最大不应该超过10MB，如果超过，应该有些考虑业务拆分，如果实在无法拆分，那就只能使用mob； 4）跟传统的关系型数据库不同，一个HBase的表中列族最多不超过3个，列族中的列可以动态添加的，不要设计过多列族； 5）列族名必须尽量短，因为我们知道在存储的时候，每个keyvalue都会包含列族名； 6）如果一个表存在一个以上的列族，那么必须要注意，不同列族之间行数相差不要太大。例如列族A有10万行，而列族B有1亿行，那么rowkey就有1亿行，而region是按照行键进行切分的，因此列族A可能会被打散为很多很多小region，这会导致在扫描列族A时会引发较多IO，效率低下。 7）列族可以设置TTL时间，HBa...

2020-03-24

651

Elasticsearch 作为一个分布式、高扩展、实时的搜索与数据分析引擎，因其轻量级、稳定、可靠、快速等特性受到越来越多开发者的青睐，在搜索、日志分析、运维监控和安全分析等领域得到广泛应用。阿里云 Elasticsearch 技术团队，深度采访了来自阿里巴巴、vivo、携程、eBay 等知名公司的技术专家，推出了 Elasticsearch 大咖说系列专题，为广大开发者提供技术入门与进阶的经验分享，以及最佳应用实践参考。分享嘉宾杨振涛 vivo 互联网搜索引擎架构师 vivo 是一个专注于智能手机领域的知名品牌，而 vivo 互联网为 vivo 智能手机用户提供极致的互联网产品和服务。从 Elasticsearch 2.1.1版本开始，到目前，vivo 互联网已经使用了 200 多个 Elasticsearch 集群来支撑全球 2

2020-03-24

727

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。