“机器学习还是很难用！”

2020-04-15 575

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

机器学习仍然很难用，但情况开始有所改善了。

以下为译文：

我是一名Cortex贡献者，Cortex是一个用于在生产中部署模型的开源平台。首先声明，以下内容是基于我对一些机器学习团队的观察总结出来的，而不是一份针对该行业的学术调查。

用一个在软件行业中无处不在的东西举例子吧，就比如数据库。建立一个数据库意味着什么？对于一名Postgres贡献者来说，“创建一个数据库”就像一百万行C代码。对于一名Rails开发者来说，看起来就仅仅是一句rake db：create。

显然，二者都没错，只不过它们代表的抽象级别不同，适用于不同工程师的不同侧重点。

这就是软件构建自己的方式。为现代应用程序提供支持的基本软件——数据库、Web服务器、请求路由器、哈希库等等——在很大程度上得到了广泛传播，是因为它们的抽象层使得非专业人士也可以访问它们。

机器学习历来缺乏这种抽象层，这限制了它的采用率。但是现在，情况正在发生变化。新的一波专门致力于让机器学习应用起来更容易的项目正在出现。

1.模型需要一个对开发人员来说更友好的界面

想要在生产环境中应用机器学习，你需要：

设计模型方面的专业知识
足够的数据以及资金来训练你的模型
ML基础架构知识（用于部署模型）

这样的结果就是，任何使用ML的项目都需要由数名专家来亲自执手。这个瓶颈亟待消除。

应该让那些没有机器学习背景的开发人员也能够在生产中使用机器学习才对，就像一名开发人员可能没有密码学方面的背景，但仍然可以用哈希库来保护用户数据一样。

幸好，这终于要发生了。

2.弥补机器学习抽象的缺失

为了使ML的应用得到普及，开发人员必须能够对机器学习有一个较高水平的了解——什么是模型、微调、推论等等——并通过可用的抽象来构建应用。

许多必要的抽象已经在研究中了，它们属于几个关键的重点领域：

1.我们需要一种更简单的方法来训练模型

现实情况是，对于许多应用机器学习的用例而言，根本不需要从头开始训练新模型。

例如，如果你正在开发一个会话代理，那么几乎可以肯定的一点就是，Google的Meena会表现得比你的模型更好。如果你正在开发一个文本生成器，那你应该去用OpenAI的GPT-2，而不是自己从头开始构建。对于对象检测来说，YOLOv3这样的模型可能是你最好的选择。

得益于转移学习（transfer learning，将神经网络的“知识”微调到一个新领域的过程），你可以只用相对少的数据，就能依据你的任务来对这些开源的最新模型进行微调。

例如，有了gpt-2-simple这样的新库，你就可以使用简单的命令行界面来微调GPT-2了：

$ gpt_2_simple finetune your_custom_data.txt

有了这一抽象层，开发人员就不需要深入了解ML的专业知识了，他们只需要知道如何微调就可以了。

而且可用的训练抽象远不止gpt-2-simple一个。Google Cloud AutoML为用户提供了一个GUI（用户图形界面），可以让用户选择自己的数据集并自动训练一个新模型，无需编写代码：

图源：Google Cloud Vision

Sundar Pichai在一篇有关AutoML的文章中说：“当今需要汇集几位博士才能设计新的神经网络，而我们希望AutoML在三到五年内能够让成千上万的开发人员们都能为他们自己的特殊需求设计新的神经网络。”

2.从模型生成预测的过程必须要简单

好的，假如说已经可以轻松地针对你的特定任务得到一个训练好的模型了。你要如何根据该模型生成预测呢？

能够提供模型服务功能的项目有很多，其中许多都与流行的ML框架相关。例如，TensorFlow有TF Serving，而ONNX有ONNX Runtime。
除了科技巨头们之外，还有许多独立的开源项目也在专注于解决这个问题。例如，Bert Extractive Summarizer项目可以让使用Google的BERT提取文本摘要的过程变得更加轻松。以下是文档中的示例：

from summarizer import Summarizer

body = 'Text body that you want to summarize with BERT'
body2 = 'Something else you want to summarize with BERT'
model = Summarizer()
model(body)
model(body2)

使用该库生成预测的过程就像使用一个import语句以及调用一次Summarizer（）一样简单。

随着有越来越多这样的项目的启动以及开发，开发人员无需过多深入了解模型本身就能更轻松地用模型生成预测了。

3.模型的部署必须要简单

最后的瓶颈是基础架构。

为一个玩具应用程序提供预测是简单而直接的，但是当你的程序需要扩大规模时，情况就会变得困难起来。以GPT-2为例：

GPT-2大于5 GB。你需要一台更大的，那么也就必定更贵的服务器来托管这么大的模型。
GPT-2非常吃算力。为了提供单个预测，GPT-2可以100％的利用率占用CPU数分钟。即使有GPU，单个预测仍可能需要花费数秒。对比之下，Web app只需用一个CPU就能够为数百个并发用户提供服务。
GPT-2非常吃内存。除了巨大的磁盘空间和计算需求之外，GPT-2还需大量的内存才能保证运行而不会崩溃。

为了应对少量的用户增长，你也需要将基础架构扩展到应用程序的许多副本。这意味着需要使用Docker对模型进行容器化，使用Kubernetes对容器进行编排，以及通过你使用的云平台来配置自动扩展（autoscaling）。

你需要学会一整套工具才能搭建好用于处理机器学习部署的基础架构，而大多数不具备专业背景的开发人员对其中很多工具都太不熟悉：

3.机器学习基础架构技术栈

为了让开发人员能够使用机器学习，需要对机器学习的基础结构进行抽象化。这就是像Cortex这样的项目登场的时候了。（完整披露：我是一名Cortex贡献者）。

Cortex通过一个配置文件以及一个命令行界面对模型部署的基础开发进行了抽象：

资料来源：Cortex Repo

Cortex这类项目的目标很简单：拿出一个训练后的模型，并将其转化为任何开发人员都能用的预测API。

4.让应用型机器学习轻松起来

我想讲清的一点是，机器学习背后的数学原理将永远都是很难懂的。只会调用个predict()函数的话，是不可能成为机器学习专家的。重点是，一名开发人员不必非得成为一名机器学习专家，就可以在自己的应用程序中使用ML。

机器学习的生态社区终于要将重心放在简化应用型ML上了。仅会一点机器学习知识的开发人员可以对最新模型进行微调，将其包装在API中，并使用开源，直观的抽象将其部署在可扩展的基础架构上。

结果就是，应用型机器学习将变得更加容易——而且通过这种扩展，几乎所有开发者都能用得上机器学习了。

原文：https://towardsdatascience.com/machine-learning-is-still-too-hard-to-use-e344773725af
作者简介：Caleb Kaiser，Cortex Labs创始团队。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/live

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-04-16
本文作者：Caleb Kaiser
本文来自：“CSDN”，了解相关信息可以关注“CSDN”

微信关注我们

原文链接：https://yq.aliyun.com/articles/755519

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如果遇到文件或数据库问题，如何重置Joomla

如果您在Joomla网站上遇到问题，那么重新安装其核心文件和数据库可能是最好的解决方案。我们的客户支持团队使用这种经过测试的方法来解决数百个问题。在这篇文章中，您将学习如何将Joomla核心文件和数据库重新安装到默认状态。了解问题这种方法无法解决您的所有问题。它主要适用于Joomla核心引起的问题。在运行Joomla核心更新后，通常会出现这些类型的问题。如果由于某种原因（例如服务器资源耗尽或错误）而仅更新了一些文件，则可能经常会遇到致命错误或奇怪的可用性问题。或者您可能发现您无法创建新项目。但是，相同的升级可能在其他站点上也可以正常工作。在这种情况下，请尝试以下四个步骤。第1步:创建您的Joomla网站备份创建并下载您网站的备份，以防万一出问题。第2步:修复您的Joomla核心文件权限使用管理工具修复您的文件夹和文件权限。第3步:重新安装Joomla Core文件在您的Joomla后端中，转到组件> Joomla更新：您将看到“ Joomla更新”屏幕。单击检查更新按钮：向下滚动页面，然后单击“ 重新安装Joomla核心文件”按钮：提示：如果问题仍...

2020-04-16

550

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！ Kubernetes已然成为IT世界的重要组成部分，并且仍在不断地发展壮大，现阶段，Kubernetes已经可以帮助企业进行微服务训练，加速企业数字化转型。尽管Kubernetes是一款如此令人印象深刻的容器编排工具，但它仍旧非常复杂。要运行和维护Kubernetes集群，您需要具备丰富的容器领域相关经验。再进一步，即便您已经拥有相关的经验，设置集群并部署它也将花费您不少的时间和精力。一旦您成功设置了Kubernetes环境，您就需要对其进行监控和管理。对于一些组织而言，维护一个Kubernetes生态系统所涉及的成本以及风险超过了实现它所带来的好处。然而，在内部构建Kubernetes虽然很便宜，但是却非常棘手及复杂。在实施Kubernetes过程中的一个小错误，可能会在生产环境中才被发现，并且导致灾难性的后果。重新部署则可能导致延迟交付。这正是一些组织推迟采用Kubernetes所存在的主要顾虑。在这样的背景下，管理Kubernetes服务应运而生。管理Kubernetes服务不...

2020-04-16

634

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。