7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】
直播间直达链接:(回看链接)
https://tianchi.aliyun.com/course/live?spm=5176.12282027.0.0.5622379ccY33Rf&liveId=41070
时间
7月24日19:00
主讲人:
诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作。
简介:
Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
自动驾驶技术公司DeepMap正将全部重计算环节迁移至阿里云
7月23日,记者了解到,国际领先的自动驾驶技术公司DeepMap高深智图正将生产高精地图的全部重计算环节迁移至阿里云。 没有高精地图,就没有自动驾驶。高深智图对地图的成图质量要求极高,要提供数量足够的关键feature,也要面向不同应用场景进行定制化适配。例如,卡车更关注高度信息,普通机动车更看重非机动车道信息,这些都对模型和算力提出了更高要求。 高深智图中国区负责人刘澍泉介绍,从相关模型训练、数据清洗到成图之前的校验,中间庞大的数据量计算过程都将全部在阿里云上完成。 整套计算将涉及阿里云的ECS、GPU、对象存储OSS、边缘节点服务ENS、专有网络VPC、EMR计算集群、K8s API集群、Hbase存储集群等数十款产品服务。 整个计算流程大致为,车载高精地图终端自动捕获增量数据,通过边缘节点快速上传云端,规模庞大的EMR集群完成数据处
- 下一篇
Hadoop学习(2)-java客户端操作hdfs及secondarynode作用
Hadoop学习(2)-java客户端操作hdfs及secondarynode作用首先要在windows下解压一个windows版本的hadoop 然后在配置他的环境变量,同时要把hadoop的share目录下的hadoop下的相关jar包拷贝到esclipe 然后Build Path 下面上代码 复制代码import java.io.BufferedReader;import java.io.FileInputStream;import java.io.IOException;import java.io.InputStreamReader;import java.net.URI;import java.net.URISyntaxException;import java.util.Arrays; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apache.hadoop.fs.FSDataOutputStream;import o...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- MySQL8.0.19开启GTID主从同步CentOS8
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Hadoop3单机部署,实现最简伪集群
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker快速安装Oracle11G,搭建oracle11g学习环境