Spark Packages寻宝（一）：简单易用的数据准备工具Optimus-低调大师

Spark Packages寻宝（一）：简单易用的数据准备工具Optimus

2020-06-11 662

作者：李呈祥，花名司麟，阿里云智能EMR团队高级技术专家，Apache Hive Committer， Apache Flink Committer，目前主要专注于EMR产品中开源计算引擎的优化工作。

Spark社区在Spark Packages网站中索引了许多第三方库，这些第三方库由不同的开发者贡献，作为Spark生态圈的一部分，扩充了Spark的使用范围和使用场景，其中很多对于我们日常的使用可能有帮助，我们准备开启一个系列文章介绍Spark Packages中一些有意思的第三方库，作为系列的第一篇，本文主要介绍Optimus，一个基于PySpark的简单易用的数据准备工具。

本文的部分内容源自Optimus官网和相关介绍文章，原文链接参考文末引用部分。

在Spark（Pyspark）的支持下，Optimus允许用户使用自己的或一组

微信关注我们

原文链接：https://yq.aliyun.com/articles/764923

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

拒做工具人！教你一键快速部署应用到容器镜像仓库

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！近年来，容器技术以迅雷不及掩耳之势迅速蔓延开来，容器技术基于各种场景的尝试与实践更是层出不穷，它的崛起改变了我们创建、发布与运行应用的方式，实现了资源的独立与隔离、相较于传统的虚拟化技术，它更加轻量化。随着以 Docker 为代表的容器技术在越来越多的业务场景中被应用，越来越多开发者开始习惯将应用打包成标准格式镜像并存放在镜像仓库中以便完成日常部署发布、团队协作等工作。但在真正的生产环境中，我们会产生大量镜像，不管是第三方还是自建，而这些镜像伴随而来的是部署、保存、分发使用等大量繁琐、重复的部署、管控工作。对于开发者而言，在本地 IDE、镜像仓库、容器等多个产品间来回切换，不仅耗费大量工时与精力，而且繁琐细碎的操作更容易造成一系列失误。说到底，哪个开发者想做一个天天机械性重复工作的工具人呢？谁不想做点有创造性的工作呢？面对这样的难题，Cloud Toolkit 给出了答案～在 IntelliJ IDEA 安装和配置 Cloud Toolkit 后，只需在配置界面设置部署参数即可...

2020-06-11

570

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！背景最近研究的同事对识别内核做了一些优化，将原先集成在casrserver的内核计算逻辑单独抽离出来做成了服务并且测试后性能有提升，需要casrserver服务配合做一些改造，我之前也有过类似的想法，这次正好识别工程团队没有人力支持，加上我之前维护过casrserver, 于是就去协助casrserver改造了。在修改之前先介绍一下当前的架构当前架构如上图，当前casrserver中既处理了网络连接，又完成了识别的计算任务，图中是一次语音请求的核心交互逻辑, 一条客户端连接过来，网络进程里会对应三个协程: recv协程负责接收客户端发上来的数据 rpc协程负责将recv的数据发送给计算进程，然后接收计算进程返回的识别结果 send协程将识别结果再回给客户端为了做到异步三个协程之间用了两个队列进行通信, 关于这套架构更详细的介绍，见顺哥在2016年openresty大会做的 ppt分享。之前的架构介绍到这里，让我们再来看看新版修改后的架构。改动后的架构如图，原先在openres...

2020-06-11

694

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。