机器学习中,使用Scikit-Learn简单处理文本数据
更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud 机器学习中,我们总是要先将源数据处理成符合模型算法输入的形式,比如将文字、声音、图像转化成矩阵。对于文本数据首先要进行分词(tokenization),移除停止词(stop words),然后将词语转化成矩阵形式,然后再输入机器学习模型中,这个过程称为特征提取(feature extraction)或者向量化(vectorization)。本文会教你使用Scikit-Learn机器学习库中的三种模型来实现这一转化过程,包括CountVectorizer, TfidfVectorizer, HashingVectorizer。 词袋模型 在将文本数据进行分词操作以后,有两种处理方法,一种是做句法分析,另一种是对这些词从统计学上进行分析,即词袋模型(Bag-of-Words Model, BoW)。词袋模型将文档看成一个袋子,里面装着文档中的词汇表。词袋模型剔除了一些对于统计模型没有意义的词,即停止词,比如那些出现频率高的连词,介词。这些停止词在自然语言中起到很重要的连接作用,和词序一起构成了合乎文...
