钉钉群直播【基于Spark实现的MLSQL如何帮助企业构建数据中台】
直播回看点我
本周我们邀请了圈内大神 祝威廉 给群内的同学做直播分享
祝威廉,资深数据架构,11年研发经验。同时维护和开发多个开源项目。擅长大数据/AI领域的一些思路和工具。现专注于构建集大数据和机器学习于一体的综合性平台,降低AI落地成本相关工作上。
本次分享中,分享者会阐述他心目中的数据中台的样子,并且介绍如何基于MLSQL完成数据中台的构建。
此外,分享者会也会介绍MLSQL是如何基于Spark来完成这些扩展的,重要的技术点有:
- 如何扩展Spark SQL使其成为一个数据专用的语言MLSQL.
- 如何实现对各种数据源譬如HDFS/ES/MySQL/MongoDB等细化到列的权限控制。
- 如何构建二层RPC通讯强化对Executor的控制,实现对机器学习更好的支持。
- 如何支持兼容多版本Spark
- 如何避免机器学习中预测阶段无法复用训练时的代码和数据
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
流数据同步DataConnector测试整理
概述 DataHub DataConnector是把DataHub服务中的流式数据同步到其他云产品中的功能,目前支持将Topic中的数据实时/准实时同步到MaxCompute(ODPS)、OSS、ElasticSearch、RDS Mysql、ADS、TableStore中。用户只需要向DataHub中写入一次数据,并在DataHub服务中配置好同步功能,便可以在各个云产品中使用这份数据。本文主要将各类数据源配置的状况做个总结,算是对官方文档的补充。 注意 目前所有DataConnector均仅支持同一Region的云服务之间同步数据,不支持同步数据到跨Region的服务。 DataConnector所配置的目标服务Endpoint需要填写相应的内网域名(经典网络),不支持使用公网域名同步。 数据同步目前仅支持at least once语义
- 下一篇
Spark + AI summit 2019北美技术峰会华丽落幕
| 导语 Apache Spark社区最大的技术峰会,SPARK + AI 峰会(SAIC),于4月23-25日,在美国旧金山落下帷幕。 数据与人工智能需要结合:最佳的人工智能应用,需要有大量大规模持续更新的训练数据,方能构建其最佳的数据模型,时至今日,Apache Spark已成为独特的一体化数据分析引擎,它集成了大规模数据处理和领先的机器学习与人工智能算法。 本次SAIC含盖了数据工程与数据科学的内容,包括AI产品化的最佳实践案例分享:超大数据规模下,利用流数据处理确保训练数据更新的时效性,完成数据质量监控,测试以及数据模型服务。也有对流行的软件框架如TensorFlow,SciKit-Learn,Keras,PyTorch,DeepLearning4J,BigDL以及Deep Learning Pipelines等,分别进行深入的
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Docker安装Oracle12C,快速搭建Oracle学习环境
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合Redis,开启缓存,提高访问速度
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS8编译安装MySQL8.0.19
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题