您现在的位置是:首页 > 文章详情

阿里云机器学习平台PAI使用简明教程(二)

日期:2020-02-28点击:499

概述

前面在阿里云机器学习平台PAI使用简明教程介绍了使用DataStudio在maxcompute中手动导入数据进行PAI Studio模型的搭建、训练及在线部署调用。实际在使用过程中使用者的数据可能在其它的数据源,目前PAI Studio并不支持直接接入第三方数据源。官方推荐的方式是使用Dataworks的数据集成功能,将数据通过离线同步将数据导入到maxcompute中,然后进行后续操作。本文以Mysql数据库为例,结合GBDT二分类算法组件,演示相关过程的操作流程。

Step By Step


1、Dataworks 数据集成
  • 1.1 配置数据源

_

_

白名单
目前支持的数据源

  • 1.2 Mysql数据库表
/*------- CREATE SQL---------*/ CREATE TABLE `paitable` ( `f0` double DEFAULT NULL, `f1` double DEFAULT NULL, `f2` double DEFAULT NULL, `f3` double DEFAULT NULL, `label` bigint(20) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8
INSERT INTO `paitable` VALUES(1,0,0,0,0); INSERT INTO `paitable` VALUES(0,1,0,0,0); INSERT INTO `paitable` VALUES(0,0,1,0,1); INSERT INTO `paitable` VALUES(0,0,0,1,1); INSERT INTO `paitable` VALUES(1,0,0,0,0); INSERT INTO `paitable` VALUES(0,1,0,0,0); SELECT * FROM paitable;

_

  • 1.3 maxcompute数据表
drop table if exists dual; create table dual (f0 DOUBLE ,f1 DOUBLE ,f2 DOUBLE ,f3 DOUBLE,label BIGINT);

特别提示 特别提示 特别提示

目前因为PAI Studio兼容的数据类型有限,所以在maxcompute中建表的数据类型只能是如下几种: bigint double decimal boolean datatime string 本身maxcompute支持的数据类型很多,如果表中字段包含了其它类型,在PAI Studio 读数据表组件查询不到相关的表。

1.4 配置离线同步

_

_

_

1.5 离线同步

_

2020-02-29 13:00:13.384 [job-226408512] INFO JobContainer - 任务启动时刻 : 2020-02-29 12:59:49 任务结束时刻 : 2020-02-29 13:00:13 任务总计耗时 : 24s 任务平均流量 : 1B/s 记录写入速度 : 0rec/s 读出记录总数 : 6 读写失败总数 : 0

_


2 PAI Studio GBDT二分类组件使用

2.1 模块搭建及参数配置

_

_

_

_

2.2 训练及结果查看

_

_

_

参考链接

GBDT二分类
阿里云机器学习平台PAI使用简明教程

原文链接:https://yq.aliyun.com/articles/747192
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章