ComputeColStats UDF中近似算法的介绍-低调大师

ComputeColStats UDF中近似算法的介绍

2017-07-23 694

一，前面的话

表和列的统计信息对CBO的结果有着极大地影响，能够高效和准确的收集统计信息是极其重要的。但高效和准确是矛盾的，更准确的统计信息往往需要更多的计算，我们能做的是在高效和准确之间找到更好的平衡。接下来的内容是关于目前在ComputeColStats中用的一些近似算法。

二，收集的内容

目前针对列主要会收集以下统计信息：
cntRows ：　列中总数据个数，包括nulll值
avgColLen ：列的平均长度
maxColLEN ：列的最大长度
minValue ：列的最小值
maxValue ：列的最大值
numNulls ：列中null值个数
numFalses ：如果boolean型，false值的个数
numTrues ：如果boolean型，true值的个数
countDistinct ：不同值的个数
topK ：topk值的个数，数据倾

微信关注我们

原文链接：https://yq.aliyun.com/articles/141083

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架，如果你使用了阿里云的E-MapReduce服务，可以很方便的运行图计算的作业。下面以PageRank为例，看看如何运行GraphX作业。这个例子来自Spark官方的example（examples/src/main/scala/org/apache/spark/examples/graphx/PageRankExample.scala），直接调用GraphOps的pageRank方法，计算出ranks： object PageRankExample { def main(args: Array[String]): Unit = { // Creates a SparkSession. val spark = SparkSession .builder

2017-07-23

679

本篇将介绍如何使用 Instance Tunnel 来获取 Maxcompute Instance 执行结果。源起每天我们都会在 Maxcompute 平台上提交 select query，用于查询特定的数据。然而，熟悉平台的同学都知道，从平台获取 sql 查询结果是一个 Restful 请求，可能碰到以下两个问题： 1 获取数据超时。如果数据分布在多个存储小文件上，平台需要花费大量时间来收集和归并这些数据。然而在这个漫长的归并过程中，获取数据的 Restful 请求可能已经超时了。此时 Maxcompute Console 会有如下警告：Warning: ODPS request failed, requestID:xxxx, retryCount:1, will retry in xxx seconds. 2 获取数据量受限。由于一次 Restful 请求的返回数据有限，且一次性获取全量数据到本地时可能将内存撑爆等问题，Maxcompute SQL 的查询结果条数是受限的，具体的数值为 project 上的配置项 READ_TABLE_MAX_ROW (默认为 10000)...

2017-07-23

1097

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。