手把手教程:用Python开发一个自然语言处理模型,并用Flask进行部署
截住到目前为止,我们已经开发了许多机器学习模型,对测试数据进行了数值预测,并测试了结果。实际上,生成预测只是机器学习项目的一部分,尽管它是我认为最重要的部分。今天我们来创建一个用于文档分类、垃圾过滤的自然语言处理模型,使用机器学习来检测垃圾短信文本消息。我们的ML系统工作流程如下:离线训练->将模型作为服务提供->在线预测。
1、通过垃圾邮件和非垃圾邮件训练离线分类器。
2、经过训练的模型被部署为服务用户的服务。
当我们开发机器学习模型时,我们需要考虑如何部署它,即如何使这个模型可供其他用户使用。Kaggle和数据科学训练营非常适合学习如何构建和优化模型,但他们并没有教会工程师如何将它们带给其他用户使用,建立模型与实际为人们提供产品和服务之间存在重大差异。
在本文中,我们将重点关注:构建垃圾短信分类的机器学习模型,然后使用Flask(用于构建Web应用程序的Python微框架)为模型创建API。此API允许用户通过HTTP请求利用预测功能。让我们开始吧!
构建ML模型
数据是标记为垃圾邮件或正常邮件的SMS消息的集合,可在此处找到。首先,我们将使用此数据集构建预测模型,以准确分类哪些文本是垃圾邮件。朴素贝叶斯分类器是一种流行的电子邮件过滤统计技术。他们通常使用词袋功能来识别垃圾邮件。因此,我们将使用Naive Bayes定理构建一个简单的消息分类器。
import pandas as pd import numpy as np from sklearn.feature_extraction.text import CountVectorizer from sklearn.model_selection import train_test_split from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import classification_report df = pd.read_csv('spam.csv', encoding="latin-1") df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1, inplace=True) df['label'] = df['class'].map({'ham': 0, 'spam': 1}) X = df['message'] y = df['label'] cv = CountVectorizer() X = cv.fit_transform(X) # Fit the Data X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) #Naive Bayes Classifier clf = MultinomialNB() clf.fit(X_train,y_train) clf.score(X_test,y_test) y_pred = clf.predict(X_test) print(classification_report(y_test, y_pred))
Naive Bayes分类器不仅易于实现,而且提供了非常好的性能。在训练模型之后,我们都希望有一种方法来保持模型以供将来使用而无需重新训练。为实现此目的,我们添加以下行以将我们的模型保存为.pkl文件供以后使用。
from sklearn.externals import joblib joblib.dump(clf, 'NB_spam_model.pkl')
我们加载并使用保存的模型:
NB_spam_model = open('NB_spam_model.pkl','rb') clf = joblib.load(NB_spam_model)
上述过程称为“标准格式的持久模型”,即模型以特定的开发语言的特定格式持久存储。下一步就是将模型在一个微服务中提供,该服务的公开端点用来接收来自客户端的请求。
将垃圾邮件分类器转换为Web应用程序
在上一节中准备好用于对SMS消息进行分类的代码之后,我们将开发一个Web应用程序,该应用程序由一个简单的Web页面组成,该页面具有允许我们输入消息的表单字段。在将消息提交给Web应用程序后,它将在新页面上呈现该消息,从而为我们提供是否为垃圾邮件的结果。
首先,我们为这个项目创建一个名为SMS-Message-Spam-Detector 的文件夹,这是该文件夹中的目录树,接下来我们将解释每个文件。
spam.csv app.py templates/ home.html result.html static/ style.css
子目录templates是Flask在Web浏览器中查找静态HTML文件的目录,在我们的例子中,我们有两个html文件:home.html和result.html 。
app.py
app.py
文件包含将由Python解释器执行以运行Flask Web应用程序的主代码,还包含用于对SMS消息进行分类的ML代码:
from flask import Flask,render_template,url_for,request import pandas as pd import pickle from sklearn.feature_extraction.text import CountVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.externals import joblib app = Flask(__name__) @app.route('/') def home(): return render_template('home.html') @app.route('/predict',methods=['POST']) def predict(): df= pd.read_csv("spam.csv", encoding="latin-1") df.drop(['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1, inplace=True) # Features and Labels df['label'] = df['class'].map({'ham': 0, 'spam': 1}) X = df['message'] y = df['label'] # Extract Feature With CountVectorizer cv = CountVectorizer() X = cv.fit_transform(X) # Fit the Data from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) #Naive Bayes Classifier from sklearn.naive_bayes import MultinomialNB clf = MultinomialNB() clf.fit(X_train,y_train) clf.score(X_test,y_test) #Alternative Usage of Saved Model # joblib.dump(clf, 'NB_spam_model.pkl') # NB_spam_model = open('NB_spam_model.pkl','rb') # clf = joblib.load(NB_spam_model) if request.method == 'POST': message = request.form['message'] data = [message] vect = cv.transform(data).toarray() my_prediction = clf.predict(vect) return render_template('result.html',prediction = my_prediction) if __name__ == '__main__': app.run(debug=True)
1、我们将应用程序作为单个模块运行,因此我们使用参数初始化了一个新的Flask实例,__name__是为了让Flask知道它可以在templates所在的同一目录中找到HTML模板文件夹()。
2、接下来,我们使用route decorator(@app.route('/'))来指定可以触发home 函数执行的URL 。我们的home 函数只是呈现home.htmlHTML文件,该文件位于templates文件夹中。
3、在predict函数内部,我们访问垃圾邮件数据集、预处理文本、进行预测,然后存储模型。我们访问用户输入的新消息,并使用我们的模型对其标签进行预测。
4、我们使用该POST方法将表单数据传输到邮件正文中的服务器。最后,通过debug=True在app.run方法中设置参数,进一步激活Flask的调试器。
5、最后,我们使用run函数执行在服务器上的脚本文件,我们需要确保使用if语句 __name__ == '__main__'。
home.html
以下是home.html将呈现文本表单的文件的内容,用户可以在其中输入消息:
<!DOCTYPE html> <html> <head> <title>Home</title> <!-- <link rel="stylesheet" type="text/css" href="../static/css/styles.css"> --> <link rel="stylesheet" type="text/css" href="{{ url_for('static', filename='css/styles.css') }}"> </head> <body> <header> <div class="container"> <div id="brandname"> Machine Learning App with Flask </div> <h2>Spam Detector For SMS Messages</h2> </div> </header> <div class="ml-container"> <form action="{{ url_for('predict')}}" method="POST"> <p>Enter Your Message Here</p> <!-- <input type="text" name="comment"/> --> <textarea name="message" rows="4" cols="50"></textarea> <br/> <input type="submit" class="btn-info" value="predict"> </form> </div> </body> </html> view raw
style.css文件
在home.html的head部分,我们将加载styles.css文件,CSS文件是用于确定HTML文档的外观和风格的。styles.css必须保存在一个名为的子目录中static,这是Flask查找静态文件(如CSS)的默认目录。
body{ font:15px/1.5 Arial, Helvetica,sans-serif; padding: 0px; background-color:#f4f3f3; } .container{ width:100%; margin: auto; overflow: hidden; } header{ background:#03A9F4;#35434a; border-bottom:#448AFF 3px solid; height:120px; width:100%; padding-top:30px; } .main-header{ text-align:center; background-color: blue; height:100px; width:100%; margin:0px; } #brandname{ float:left; font-size:30px; color: #fff; margin: 10px; } header h2{ text-align:center; color:#fff; } .btn-info {background-color: #2196F3; height:40px; width:100px;} /* Blue */ .btn-info:hover {background: #0b7dda;} .resultss{ border-radius: 15px 50px; background: #345fe4; padding: 20px; width: 200px; height: 150px; }
style.css文件
result.html
我们创建一个result.html文件,该文件将通过函数render_template('result.html', prediction=my_prediction)返回呈现predict,我们在app.py脚本中定义该文件以显示用户通过文本字段提交的文本。result.html文件包含以下内容:
<!DOCTYPE html> <html> <head> <title></title> <link rel="stylesheet" type="text/css" href="{{ url_for('static', filename='css/styles.css') }}"> </head> <body> <header> <div class="container"> <div id="brandname"> ML App </div> <h2>Spam Detector For SMS Messages</h2> </div> </header> <p style="color:blue;font-size:20;text-align: center;"><b>Results for Comment</b></p> <div class="results"> {% if prediction == 1%} <h2 style="color:red;">Spam</h2> {% elif prediction == 0%} <h2 style="color:blue;">Not a Spam (It is a Ham)</h2> {% endif %} </div> </body> </html>
result.html
从result.htm文件我们可以看到一些代码使用通常在HTML文件中找不到的语法例如,{% if prediction ==1%},{% elif prediction == 0%},{% endif %}这是jinja语法,它用于访问从HTML文件中请求返回的预测。
我们就要大功告成了!
完成上述所有操作后,你可以通过双击appy.py 或从终端执行命令来开始运行API :
cd SMS-Message-Spam-Detector python app.py
你应该得到以下输出:
现在你可以打开Web浏览器并导航到http://127.0.0.1:5000/,你应该看到一个简单的网站,内容如下:
恭喜!我们现在以零成本的代价创建了端到端机器学习(NLP)应用程序。如果你回顾一下,其实整个过程根本不复杂。有点耐心和渴望学习的动力,任何人都可以做到。所有开源工具都使每件事都成为可能。
更重要的是,我们能够将我们对机器学习理论的知识扩展到有用和实用的Web应用程序!
完整的工作源代码可在此存储库中找到,祝你度过愉快的一周!
作者:【方向】
原文链接
本文为云栖社区原创内容,未经允许不得转载。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
干货|Spring Cloud Stream 体系及原理介绍
Spring Cloud Stream在 Spring Cloud 体系内用于构建高度可扩展的基于事件驱动的微服务,其目的是为了简化消息在 Spring Cloud 应用程序中的开发。Spring Cloud Stream (后面以SCS代替 Spring Cloud Stream) 本身内容很多,而且它还有很多外部的依赖,想要熟悉 SCS,必须要先了解 Spring Messaging 和 Spring Integration 这两个项目,接下来文章将从以下几点跟大家进行介绍: 什么是 Spring Messaging; 什么是 Spring Integration; 什么是 SCS及其功能; Spring Messaging Spring Messaging 是 Spring Framework 中的一个模块,其作用就是统一消息的编程模型。 比如消息Messaging对应的模型就包括一个消息体 Payload 和消息头 Header: package org.springframework.messaging; public interface Message<T> ...
- 下一篇
利用php websocket实现小程序消息推送或即时通信功能 wss的实现
小程序没有消息推送功能,要想实现可以通过php的websocket来实现 一.配置服务器. 1.上传web-msg-sender目录到服务器 (官方地址https://www.workerman.net/web-sender 下载地址:https://www.workerman.net/download/senderzip) 2.修改start_io.php文件修改证书路径(nginx证书)小程序跳过此步小程序需要使用反向代理下面会有介绍 $sender_io = new SocketIO(2120); 修改成 $context = array( 'ssl' => array( 'local_cert' => '/ssl/cn_bundle.crt', 'local_pk' => '/ssl/pk.key', 'verify_peer' => false, ) ); // PHPSocketIO服务 $sender_io = new SocketIO(2120,$context); 证书可以通过腾讯云申请,下载后选择里面的nginx证书即可 3....
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS8编译安装MySQL8.0.19
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题