阿里云机器学习平台PAI使用简明教程(二)
概述
前面在阿里云机器学习平台PAI使用简明教程介绍了使用DataStudio在maxcompute中手动导入数据进行PAI Studio模型的搭建、训练及在线部署调用。实际在使用过程中使用者的数据可能在其它的数据源,目前PAI Studio并不支持直接接入第三方数据源。官方推荐的方式是使用Dataworks的数据集成功能,将数据通过离线同步将数据导入到maxcompute中,然后进行后续操作。本文以Mysql数据库为例,结合GBDT二分类算法组件,演示相关过程的操作流程。
Step By Step
1、Dataworks 数据集成
- 1.1 配置数据源
- 1.2 Mysql数据库表
/*------- CREATE SQL---------*/ CREATE TABLE `paitable` ( `f0` double DEFAULT NULL, `f1` double DEFAULT NULL, `f2` double DEFAULT NULL, `f3` double DEFAULT NULL, `label` bigint(20) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8
INSERT INTO `paitable` VALUES(1,0,0,0,0); INSERT INTO `paitable` VALUES(0,1,0,0,0); INSERT INTO `paitable` VALUES(0,0,1,0,1); INSERT INTO `paitable` VALUES(0,0,0,1,1); INSERT INTO `paitable` VALUES(1,0,0,0,0); INSERT INTO `paitable` VALUES(0,1,0,0,0); SELECT * FROM paitable;
- 1.3 maxcompute数据表
drop table if exists dual; create table dual (f0 DOUBLE ,f1 DOUBLE ,f2 DOUBLE ,f3 DOUBLE,label BIGINT);
特别提示 特别提示 特别提示
目前因为PAI Studio兼容的数据类型有限,所以在maxcompute中建表的数据类型只能是如下几种: bigint double decimal boolean datatime string 本身maxcompute支持的数据类型很多,如果表中字段包含了其它类型,在PAI Studio 读数据表组件查询不到相关的表。
1.4 配置离线同步
1.5 离线同步
2020-02-29 13:00:13.384 [job-226408512] INFO JobContainer - 任务启动时刻 : 2020-02-29 12:59:49 任务结束时刻 : 2020-02-29 13:00:13 任务总计耗时 : 24s 任务平均流量 : 1B/s 记录写入速度 : 0rec/s 读出记录总数 : 6 读写失败总数 : 0
2 PAI Studio GBDT二分类组件使用
2.1 模块搭建及参数配置
2.2 训练及结果查看
参考链接
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
云存储网关的缓存最佳实践
前言 云存储网关支持通过传统的文件协议(SMB/NFS)来访问OSS Bucket里面的数据,并能够通过缓存技术将用户频繁访问的热点数据保留在网关侧的缓存盘里,从而提供给用户更好的访问体验。使得用户在享受云上海量OSS存储空间的同时,还兼具本地的高速访问性能。下面是阿里云文件网关的架构图。 用户在使用阿里云云存储网关时,经常会碰到一些缓存相关的问题,比如在创建共享时如何选择缓存盘的容量和类型,比如缓存的数据淘汰策略是什么等。本文接下来的内容将结合缓存盘的工作原理来解开这些困惑。云存储网关根据支持的协议的不同,分为支持NFS/SMB文件协议的文件网关和支持iSCSI协议的块网关。它们两者的缓存工作机制是不一样的,本文主要针对的文件网关。 工作原理 文件网关支持缓存模式和复制模式两种模式,绝大部分用户使用的应该都是缓存模式。缓存模式是指缓存盘的数据到一定比例之后,文件网关会自动淘汰那些访问不频繁的数据。在这种模式下,固定容量的缓存盘可以管理远远大于缓存盘实际容量的OSS Bucket。复制模式则不同,数据在网关侧和OSS Bucket里面是1:1的,所以网关不会去做数据的淘汰,一定容量的缓...
- 下一篇
案例解析|游戏发行商如何低成本实现精细化营销
行业趋势—游戏行业市场营销往精细化发展 2020年初突发的疫情防控导致游戏行业的用户数量大幅增长,个别产品的服务器更是被玩家挤爆,对应二级市场上游戏公司股价也开始一路走高。然而回望两年前,受政策影响整个游戏行业受到重挫,2018年游戏娱乐板块全年整体下跌36.66%,游戏行业几乎一整年都在饥寒交迫中挣扎。直到2018年12月,游戏版号恢复审批,游戏行业才开始逐步复苏。再加上5G的推出,有望解决云游戏及AR/VR的技术瓶颈,游戏行业的发展迎来春天的趋势已经势不可挡。而此次的疫情防控,对于游戏行业的发展,就好比发令枪已响。整个行业经历了整体下跌,再逐步复苏的过程,不少游戏公司都面临着推广成本高、获客难、流量成本高等问题,然而发令枪一响,有些游戏公司已经提前布局,提前进入了快车道。游戏用户越来越成熟,对于游戏品质的要求也越来越高。游戏领域的竞争愈演愈烈,游戏好玩的同时也需要做好市场运营才能获得更好的业绩。随着流量成本不断升高,游戏行业的市场营销开始往精细化发展。企业A是一家独特且创新的游戏公司,目前在全球已有超过1亿的手机游戏用户。代表作手游曾成为一款国民级手游,同时在全球大获成功。近些年来...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS8编译安装MySQL8.0.19
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS关闭SELinux安全模块
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程