【云栖大会】阿里云大数据计算服务新版本重磅发布
MaxCompute(大数据计算服务)是阿里云的自主研发的大数据计算平台型产品,是阿里云原ODPS的最新产品名称,MaxCompute目前已经拥有众多行业客户并且得到深度应用。在杭州云栖大会第三天的“ MaxCompute2.0专场”上,阿里云MaxCompute2.0新版本重磅发布,并为大家带来诸多激动人心的新Feature和技术。在本次专长上阿里云数据事业部首席技术专家关涛、阿里云数据事业部技术专家少杰、阿里云数据事业部高级专家应答、阿里云iDST视觉计算技术专家慕开、阿里云数据事业部技术专家九丰、阿里云数据事业部高级专家薛明、阿里云数据事业部高级专家艺卓以及阿里云大数据计算平台首席架构师林伟等做了精彩演讲,分享了业界领先的大数据计算的高性能、高效率技术以及大数据计算平台的安全技术等等,刷新了大数据技术知识的新高度!
关涛:MaxCompute 2.0 overview
阿里云数据事业部首席技术专家关涛在演讲中对MaxCompute2.0进行了整体介绍,对于MaxCompute2.0对的新功能、生态与开发效率、安全性以及如何使用进行了分享。
少杰:MaxCompute SQL 2.0——全新的运算引擎及其实现原理
MaxCompute-SQL2.0经过重大的重构,在性能上有长足的进步,TPC-Hbenchmark显示对比Hive有60%的性能提升。在阿里云数据事业部技术专家少杰在演讲中从Optimizer和Runtime两个主题分析了这个性能提升的原理和实现,也分享了benchmark结果分析和未来的展望。
应答:数据无边界——非结构化数据在MaxCompute上的处理
MaxCompute作为阿里云大数据平台的核心计算组件,拥有强大的计算能力,能够调度大量的节点做并行计算,同时对分布式计算中的failover,重试等均有一套行之有效的处理管理机制。而MaxCompute-SQL能在简明的语义上实现各种数据处理逻辑,在集团内外更是广为应用,在其上实现与各种数据源的互通,对于打通整个阿里云的数据生态具有重要意义。
基于这一点,最近MaxCompute团队依托MaxCompute2.0系统架构,引入了非结构化数据处理框架:通过外部表,为各种数据在MaxCompute上的计算处理提供了入口。在这个框架中,通过一条简单的DDL语句,即可在MaxCompute上创建一张外部表,建立MaxCompute表与外部数据源的关联,提供各种数据的接入和输出能力。
创建好的外部表可以像普通的MaxCompute表一样使用(大部分场景),充分利用MaxCompute-SQL的强大计算功能。目前对于OSS数据的读取计算功能,在集团内一些急需大规模非结构化数据处理能力的团队中已经使用。MaxCompute团队将进一步完善相关功能,并且提供对更多数据源的支持,例如TableStore(OTS)等。
慕开:智慧城市是如何构建的——城市大脑在MaxCompute上的海量视频分析
PAI是阿里云的分布式机器学习平台。除了支持常规的基于CPU集群的分布式机器学习算法,PAI平台还支持高性能的GPU计算集群,并提供相应的多机多卡的深度学习算法。用户可以很方便的通过PAI平台将常规的基于CPU集群的数据清理任务和基于GPU集群的深度学习算法融合一起组合训练。
九丰:计算出真知——GPU高性能异构机器学习平台
现有的pandas库提供丰富的API尤其是DataFrame-API来操作结构化数据;同时阿里云MaxCompute本身作为大数据处理平台,提供了海量数据的能力,其中MaxCompute-SQL是MaxCompute上主要的结构化数据处理语言。然而,Pandas作为单机的库,计算能力有限;MaxCompute-SQL能处理大量数据,但受限于SQL的表达能力。
因此,PyMaxCompute DataFrame框架提供了一种类似于Pandas-DataFrame的API,但是能运用MaxCompute的海量数据计算能力,对结构化数据来执行查询。DataFrame框架目前将所有操作编译成MaxCompute-SQL来执行,也能在本地使用pandas计算。同时,PyMaxCompute提供了类似scikit-learn类似的接口,通过输入和输出PyMaxCompute DataFrame,能让用户无需学习成本,就能用类似scikit-learn的体验进行机器学习和数据挖掘。
薛明+艺卓:生态与兼容——MaxCompute大数据生态集成和开发工具
MaxCompute-Studio是支持在阿里云分布式数据计算平台MaxCompute上进行数据开发的集成开发工具。该工具提供SQL语言本地语法检查、智能提示,在线调试UDF,项目空间管理,作业管理和执行计划可视化展示等功能,为开发者提供良好的数据开发体验。阿里云数据事业部高级专家薛明和艺卓对这款工具进行了详细的功能介绍和演示。
林伟:MaxCompute Going forward
阿里云大数据计算平台首席架构师林伟做了以“MaxCompute-Going-forward”为主题的演讲,介绍了MaxCompute在未来短期和长期主要关注点和路线图
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Hadoop社区支持阿里云OSS 云计算与开源融合的新里程碑
记者从全球著名的开源软件社区Hadoop社区获悉,Hadoop支持阿里云的OSS对象存储文件系统,这是Hadoop第一次支持中国云计算服务商的对象存储文件系统。这意味着全球用户在使用Hadoop这一开源软件时,都可以无缝连接阿里云的OSS对象存储文件系统。这是继Docker支持阿里云存储以后,又一个更重大的里程碑。 OSS进入Hadoop社区后,意味着全球所有的Hadoop(HDFS)生态的离线,交互,数据仓库,深度学习等程序在不需要修改代码的情况下,自由读取和写入OSS对象存储,也提升了Hadoop社区的覆盖度和竞争力,也给用户提供了一个新的选择。 Hadoop社区作为大数据领域的开源软件,一直以来都受到了各个厂商的高度重视,对OSS的支持将更大程度的促进开源软件和云计算的互通与融合。 OSS开放云存储服务,是阿里云对外的提供的
- 下一篇
ElasticSearch大数据分布式弹性搜索引擎使用
阅读目录: 背景 安装 查找、下载rpm包 、执行rpm包安装 配置elasticsearch专属账户和组 设置elasticsearch文件所有者 切换到elasticsearch专属账户测试能否成功启动 安装自启动elasticsearch servicewrapper包 下载elasticsearch servicewrapper 包 elasticsearch servicewrapper开源包的配置小bug servicewrapper安装 chkconfig -add 加入linux启动服务列表 安装_plugin/head管理插件(辅助管理) 安装chrom中的elasticsearch客户端插件 使用elasticsearch自带的_cat工具 clone 虚机(修改IP、HWaddr、UUID配置,最后修改下系统时间) 配置 elasticsearch.yml配置 IP访问限制、默认端口修改9200 集群发现IP列表、node、cluster 名称 master node 启动切换 linux 打开最大文件数设置(用作index时候的系统阀值) 安装中文分词器ik(注...
相关文章
文章评论
共有0条评论来说两句吧...