NLTK基础基础教程学习笔记(十四)
对于文本分类,最简单的定义就是基于文本内容来对其进行分类。通常情况算法是根据数字/变量特征来写的。先从https://archive.ics.uci.edu/ml/datasets/SMS+SPam+Collection中下载数据集接下来先要进行数据清理,标识化处理,以及词干提取来对SMS数据进行清理,使其内容更加简单一点: import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import csv def preprocessing(text): # text=text.decode("utf8") tokens=[word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)] stop=stopwords.words('english') tokens=[token for token in tokens if token not in stop] tokens=[wor...