Spark机器学习8· 文本处理(spark-shell)
自然语言处理(NLP,Natural Language Processing)
- 提取特征
- 建模
- 机器学习
TF-IDF(词频 term frequency–逆向文件频率 inverse document frequency)
- 短语加权:根据词频,为单词赋予权值
- 特征哈希:使用哈希方程对特征赋予向量下标
0 运行环境
tar xfvz 20news-bydate.tar.gz
export SPARK_HOME=/Users/erichan/Garden/spark-1.5.1-bin-hadoop2.6
cd $SPARK_HOME
bin/spark-shell --name my_mlib --packages org.jblas:jblas:1.2.4-SNAPSHOT --driver-memory 4G --exec
