使用split_size优化的ODPS SQL的场景

2019-03-18 851

使用split_size优化的ODPS SQL的场景

首先有两个大背景需要说明如下：
说明1：split_size，设定一个map的最大数据输入量，单位M，默认256M。用户可以通过控制这个变量，从而达到对map端输入的控制。设置语句：set odps.sql.mapper.split.size=256。一般在调整这个设置时，往往是发现一个map instance处理的数据行数太多。

说明2：小文件越多，需要instance资源也越多，MaxCompute对单个Instance可以处理的小文件数限制为120个，如此造成浪费资源，影响整体的执行性能（文件的大小小于块Block 64M的文件）。

场景一：单记录数据存储太少

原始Logview Detail：

可以发现Job只调起一个Map Instance，供处理了156M的数据，但这些数据共有

微信关注我们

原文链接：https://yq.aliyun.com/articles/694239

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

elasticsearch使用指南之Elasticsearch Mapping类型映射概述与元字段类型

作者简介：《RocketMQ技术内幕》作者、中间件兴趣圈微信公众号维护者。 Mapping,映射，相当于关系型数据库创建语句，定义文档字段及其类型、索引与存储方式。通常会涉及如下方面：文档中哪些字段需要定义成全文索引字段。文档中哪些字段定义为精确值，例如日期，数字、地理位置等。文档中哪些字段需要被索引（能通过该字段的值查询文档）。日期值的格式。动态添加字段的规则定义等。 1、类型映射概述 1.1 映射类型 Elasticsearch支持meta-fields、fields or properties两种映射类型，将决定文档的索引方式。 Meta-fields元数据字段用于定义文档的元数据字段的特征，文档的元数据字段主要包括_index、_type、_id、_source这4个字段。 Fields or properties属性字段列表，通过properties字段定义整个文档有效载荷的各字段的数据类型、分词器等属性。映射类型，可以理解为以何种方式来定义索引中一个类型的字段集。 1.2 数据类型每一个字段都会指定一个数据类型，数据类型通常如下：简单类型，例如text、key...

2019-03-17

838

简介 Elasticsearch是一个高度可扩展的、开源的、基于 Lucene 的全文搜索和分析引擎。它允许您快速，近实时地存储，搜索和分析大量数据，并支持多租户。 Elasticsearch也使用Java开发并使用 Lucene 作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的 RESTful API 来隐藏 Lucene 的复杂性，从而让全文搜索变得简单。不过，Elasticsearch 不仅仅是 Lucene 和全文搜索，我们还能这样去描述它：分布式的实时文件存储，每个字段都被索引并可被搜索分布式的实时分析搜索引擎可以扩展到上百台服务器，处理PB级结构化或非结构化数据而且，所有的这些功能被集成到一个服务里面，你的应用可以通过简单的RESTful API、各种语言的客户端甚至命令行与之交互。版本选择在决定使用 Elasticsearch 的时候首先要考虑的是版本问题，Elasticsearch 目前有三个常用的稳定的主版本：2.x，5.x，6.x（排除 0.x 和 1.x）。 Elasticsearch 可以在这里查看所有历史版本，博主写这篇博文的时候最...

2019-03-18

651

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。