Spark Packages寻宝(一):简单易用的数据准备工具Optimus
作者:李呈祥,花名司麟 ,阿里云智能EMR团队高级技术专家,Apache Hive Committer, Apache Flink Committer,目前主要专注于EMR产品中开源计算引擎的优化工作。
Spark社区在Spark Packages网站中索引了许多第三方库,这些第三方库由不同的开发者贡献,作为Spark生态圈的一部分,扩充了Spark的使用范围和使用场景,其中很多对于我们日常的使用可能有帮助,我们准备开启一个系列文章介绍Spark Packages中一些有意思的第三方库,作为系列的第一篇,本文主要介绍Optimus,一个基于PySpark的简单易用的数据准备工具。
本文的部分内容源自Optimus官网和相关介绍文章,原文链接参考文末引用部分。
在Spark(Pyspark)的支持下,Optimus允许用户使用自己的或一组

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
拒做工具人!教你一键快速部署应用到容器镜像仓库
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 近年来,容器技术以迅雷不及掩耳之势迅速蔓延开来,容器技术基于各种场景的尝试与实践更是层出不穷,它的崛起改变了我们创建、发布与运行应用的方式,实现了资源的独立与隔离、相较于传统的虚拟化技术,它更加轻量化。 随着以 Docker 为代表的容器技术在越来越多的业务场景中被应用,越来越多开发者开始习惯将应用打包成标准格式镜像并存放在镜像仓库中以便完成日常部署发布、团队协作等工作。但在真正的生产环境中,我们会产生大量镜像,不管是第三方还是自建,而这些镜像伴随而来的是部署、保存、分发使用等大量繁琐、重复的部署、管控工作。 对于开发者而言,在本地 IDE、镜像仓库、容器等多个产品间来回切换,不仅耗费大量工时与精力,而且繁琐细碎的操作更容易造成一系列失误。 说到底,哪个开发者想做一个天天机械性重复工作的工具人呢?谁不想做点有创造性的工作呢? 面对这样的难题,Cloud Toolkit 给出了答案~ 在 IntelliJ IDEA 安装和配置 Cloud Toolkit 后,只需在配置界面设置部署参数即可...
- 下一篇
语音识别服务分离计算内核
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 背景 最近研究的同事对识别内核做了一些优化,将原先集成在casrserver的内核计算逻辑单独抽离出来做成了服务并且测试后性能有提升,需要casrserver服务配合做一些改造,我之前也有过类似的想法,这次正好识别工程团队没有人力支持,加上我之前维护过casrserver, 于是就去协助casrserver改造了。在修改之前先介绍一下当前的架构 当前架构 如上图,当前casrserver中既处理了网络连接,又完成了识别的计算任务,图中是一次语音请求的核心交互逻辑, 一条客户端连接过来,网络进程里会对应三个协程: recv协程负责接收客户端发上来的数据 rpc协程负责将recv的数据发送给计算进程,然后接收计算进程返回的识别结果 send协程将识别结果再回给客户端 为了做到异步三个协程之间用了两个队列进行通信, 关于这套架构更详细的介绍,见顺哥在2016年openresty大会做的 ppt分享。之前的架构介绍到这里,让我们再来看看新版修改后的架构。 改动后的架构 如图,原先在openres...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Windows10,CentOS7,CentOS8安装Nodejs环境
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题