首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://yq.aliyun.com/articles/757491

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Spark DataFrame 不是真正的 DataFrame

文章原载于 Mars 团队专栏,欢迎关注。 从这篇文章开始,我们开始一个新的读 paper 系列。 今天要介绍的 paper 是 Towards Scalable Dataframe Systems,目前还是预印本。作者 Devin Petersohn 来自 Riselab,该实验室的前身是大名鼎鼎的 APMLab,诞生了 Apache Spark、Apache Mesos 等一系列著名开源项目。 个人觉得这篇 paper 蛮有意义的,第一次(据我所知)试图在学术上对 DataFrame 做定义,给了很好的理论指导意义。 这篇文章我不会拘泥于原 paper,我会加入自己的理解。本篇文章会大致分三部分: 什么是真正的 DataFrame? 为什么现在的所谓 DataFrame 系统,典型的如 Spark DataFrame,有可能正在杀死 DataFrame 的原本含义。 从 Mars DataFrame 的角度来看这个问题。 什么是真正的 DataFrame? 起源 最早的 "DataFrame" (开始被称作 "data frame"),来源于贝尔实验室开发的 S 语言。"data ...

如何衡量MaxCompute建立性能基准?

云栖号快速入门:【点击查看更多云产品快速入门】不知道怎么入门?这里分分钟解决新手入门等基础问题,可快速完成产品配置操作! MaxCompute性能表现优劣,主要取决您的表设计是否符合规范。为方便您衡量MaxCompute表的性能表现,建议您在优化性能之前首先建立性能基准。 在优化表前后测试系统性能时,您需要记录每张表的数据同步时间、占用存储大小以及查询性能的详细信息。如果您使用的是包年包月方式购买的MaxCompute项目资源,还需要记录购买数。 记录数据同步时间 在您执行数据同步任务后,可以在运维中心 > 周期实例页面右键查看用户任务运行时间,如下图所示。 记录占用存储大小 登录DataWorks控制台。 您可以使用describe命令查看全表或表中某个分区占用物理存储的大小。 记录查询执行时间及预估费用 登录DataWorks控制台,进入数据开发页面,创建ODPS sql节点。 您可以在运行任务时或通过单击图标直接通过图形页面查看预估费用。任务完成运行后,可在运行日志中查看到运行时间。 本文来自 阿里云文档中心 MaxCompute 建立性能基准 【云栖号在线课堂】每天都有产...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源,继承了IntelliJ IDEA强大的JS部分的功能。

用户登录
用户注册