在kubernetes用alluxio加速spark数据访问(二)
1.背景信息
1.1 alluxio
Alluxio是一个开源的基于内存的分布式存储系统,适合作为云上大数据和AI / ML的数据编排方案。Alluxio可以同时管理多个底层文件系统,将不同的文件系统统一在同一个名称空间下,让上层客户端可以自由访问统一名称空间内的不同路径,不同存储系统的数据。
alluxio的short-circuit功能可以使alluxio客户端直接访问alluxio worker所在主机的工作存储,而不需要通过网络栈与alluxio worker完成通信,可以提高性能。
1.2 spark operator
Spark-operator用于管理k8s集群中spark job。通过spark-operator可以在k8s集群中创建、查看和删除spark job。
2.前提条件
本文档的操作依赖如下的一些条件:
- kubernet
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Redis 作者辞去 Redis 项目的领导者和维护者职务
Redis 作者 antirez 在博客公布了从 Redis 项目辞职的消息,将不再担任 Redis 项目的领导者和维护者。 antirez 选择将 Redis 交给Redis 社区打理,并邀请到了两位同事 Yossi Gottlieb 和 Oran Agra继续维护 Redis 项目。而他将成为 Redis Labs 顾问委员会的一员,会为 Redis 的更多发展可能性输出自己的想法。至于是否还会写代码,antirez 表示自己也不知道,因为目前还没制定好未来的计划。他希望去探索自己的一些爱好,比如写博客,以及最近在做的向大众科普技术概念的视频。 谈及 Redis,antirez 表示为确保它的可用性和可靠性,自己投入了大量时间和精力,他的大部分注意力都花在了查看其他开发者为 Redis 提交的代码上,但 antirez 说到从来没有想过要成为一名软件维护者。而现在他越来越多地被要求做这方面的工作,被一个变得如此重要的项目所创造的环境所要求,只能少一点表达自己,多一点维护项目。 antirez 也认同这的确正是 Redis 现在所需要的,但这并不是他所想做的事情。他表示在过去的几年里...
- 下一篇
【最佳实践】ingest对异源数据结构化处理,并由Elastic Stack实现可观测性分析
数据集 在我们的实际数据采集中,数据可能来自不同的来源,并且以不同的形式展展现: 这些数据可以是一种很结构化的数据被摄入,比如数据库中的数据, 或者就是一组最原始的非结构化的数据,比如日志。对于一些非结构化的数据,我们该如何把它们结构化,并使用 Elasticsearch 进行分析呢? 结构化数据 就如上面的数据展示的那样。在很多的情况下,数据在摄入的时候是一种非结构化的形式来呈现的。这个数据通常有一个叫做 message 的字段。为了能达到结构化的目的,我们们需要 parse 及 transform 这个 message 字段,并把这个 message 变为我们所需要的字段,从而达到结构化的母的。让我们看一个例子。假如我们有如下的信息: { "message": "2019-09-29T00:39:02.9122 [Debug]
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS关闭SELinux安全模块
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16