在阿里云EMR上使用Intel Analytics Zoo进行深度学习-低调大师

在阿里云EMR上使用Intel Analytics Zoo进行深度学习

2018-09-11 667

简介

Analytics Zoo是由Intel开源,基于Apache Spark和Inte BigDL的大数据分析和AI平台，方便用户开发基于大数据、端到端的深度学习应用。

系统要求

JDK 8
Spark 集群(推荐使用EMR支持的Spark 2.x)
python-2.7(python 3.5,3.6也支持), pip

安装Analytics Zoo

Analytics Zoo 最新的release版本是0.2.0

Scala安装

下载pre-build版本

可以从github，analytics主页下载到pre-build版本

通过script build

安装Apache Maven,设置Maven环境

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m"

如果使用ECS机器进行编译，推荐修改Maven仓库mirror

<mirror>
    <id>nexus-aliyun</id>
    <mirrorOf>central</mirrorOf>
    <name>Nexus aliyun</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public</url>
</mirror>

下载Analytics Zoo release版本,解压后在目录下运行

bash make-dist.sh

build结束后，在dist目录中包含了所有的运行环境。将dist目录放到EMR软件栈运行时统一目录。

cp -r dist/ /usr/lib/analytics_zoo

python 安装

Analytics Zoo支持pip安装和非pip安装，pip安装会安装pyspark，bigdl等，由于EMR集群已经安装了pyspark，通过pip安装有可能引起冲突，所以采用非pip安装。

非Pip安装

首先要运行

bash make-dist.sh

进入pyzoo目录，安装analytcis zoo

python setup.py install

设置环境变量

在scala安装结束后将dist目录放到了EMR软件栈统一目录，然后设置环境变量。编辑/etc/profile.d/analytics_zoo.sh，加入

export ANALYTICS_ZOO_HOME=/usr/lib/analytics_zoo
export PATH=$ANALYTICS_ZOO_HOME/bin:$PATH

EMR已经设置了SPARK_HOME，所以无需再次设置。

使用Analytics Zoo

使用Spark来训练和测试深度学习模型

使用Analytics Zoo来做文本分类，代码和说明在github。根据说明下载必须的数据。提交命令：

spark-submit --master yarn \
--deploy-mode cluster --driver-memory 8g \
--executor-memory 20g --class com.intel.analytics.zoo.examples.textclassification.TextClassification \
/usr/lib/analytics_zoo/lib/analytics-zoo-bigdl_0.6.0-spark_2.1.0-0.2.0-jar-with-dependencies.jar --baseDir /news

通过ssh proxy来查看spark运行详情页面。

同时查看日志，能够看到每个epoch的accuracy信息等。

INFO optim.DistriOptimizer$: [Epoch 2 9600/15107][Iteration 194][Wall Clock 193.266637037s] Trained 128 records in 0.958591653 seconds. Throughput is 133.52922 records/second. Loss is 0.74216986.
INFO optim.DistriOptimizer$: [Epoch 2 9728/15107][Iteration 195][Wall Clock 194.224064816s] Trained 128 records in 0.957427779 seconds. Throughput is 133.69154 records/second. Loss is 0.51025534.
INFO optim.DistriOptimizer$: [Epoch 2 9856/15107][Iteration 196][Wall Clock 195.189488678s] Trained 128 records in 0.965423862 seconds. Throughput is 132.58424 records/second. Loss is 0.553785.
INFO optim.DistriOptimizer$: [Epoch 2 9984/15107][Iteration 197][Wall Clock 196.164318688s] Trained 128 records in 0.97483001 seconds. Throughput is 131.30495 records/second. Loss is 0.5517549.

在Analytics Zoo中使用pyspark和Jupyter来进行深度学习训练

安装jupyter

pip install jupyter

使用下面命令启动。

jupyter-with-zoo.sh

使用Analytics Zoo,采用内置的Wide And Deep 模型来进行推荐，相关内容可参考github。
首先导入数据

然后定义模型和优化器

进行训练

查看训练结果

微信关注我们

原文链接：https://yq.aliyun.com/articles/638782

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源大数据周刊-第99期

资讯谷歌重磅开源强化学习框架Dopamine谷歌推出了一款全新的开源强化学习框架 Dopamine，该框架基于 TensorFlow，主打灵活性、稳定性、复现性，能够提供快速的基准测试。整合AI和数据科学新利器：基于Apache Spark的Hydrogen项目以往数据集的准备以及模型的训练工作是分开的，这两部分工作相当于存在两套系统中。这种方式对于开发、测试都极其麻烦。是否存在于一套方案，同时解决这两类问题呢？Apache Spark 无法做到。原因是模型的训练在 Spark 的 DAGScheduler 中支持的并不好。后来 Spark 提出了 Hydrogen 项目，从而使得 Spark 能够更好地整合深度学习框架。 Redis杀死许可证，闭源的有：RediSearch、Redis Graph、ReJSON、ReBloom、R

2018-09-12

639

随着互联网技术的飞速发展，知识更新换代的频率也随之加快。为了实现知识共享，将最新的知识应用到实践领域。阿里专家汇集这里，给大家带来各类技术直播分享，涵盖人工智能、大数据、Java、数据库等技术领域。下面是我们为大家整理好的直播PPT内容，方便大家随时学习！人工智能PPT下载地址阿里云技术总负责人蒋江伟《IPv6推动互联网新动能》 CNGI专家委员会主任、中国工程院院士邬贺铨《IPv6时代的中国机遇》阿里集团基础架构事业群网络研发事业部副总裁蔡依群《阿里IPv6网络演进之路》阿里云网络高级专家谭礼铨《IPv6引领云网络持续创新》创客学院老师刘正道《从端到云-全面讲解物联网全栈开发之道》阿里机器智能技术实验室技术专家于恒《从RNN到LSTM，性能良好的神经网络到底是如何工作的？》 NVIDIA资深高级系统架构师David《AI大牛教你如何秒速部署GPU深度学习的应用》阿里云高级技术专家陶云峰《函数对象的四种写法，哪种更适合你？》阿里云高级技术专家陶云峰《为什么要学习函数式编程？因为如果你手里只有锤子，看什么都像钉子》阿里云高级开发工程师付哲《消灭“脑细胞杀手”，阿里专家带你...

2018-09-12

814

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。