Word2vec 讨论
我没有在自然语言处理完成。但基于Deep Learning 关注,自然知道一些Word2vec强大。 Word2vec 是google 在2013年提供的一款将词表征为实数值向量的高效工具。而Word2vec输出的词向量可用于做NLP 相关的工作。比方聚类、找同义词、词性分析等。Word2vec 大受欢迎的一个原因是其高效性。 Tomas Mikolov 在[1] 中指出一个优化的单机版本号一天能够训练上千亿词(汗! )。 关于词的概念。这里的词能够并不一定真的就是单词,全然能够是具有一定意义的单元块,比方国外音乐站点就用word2vec来训练用户的听歌记录。这里的单元块就是歌曲编号。假设用户对音乐类型的喜好是一致的,那么训练后就能找到与某个歌曲相似的歌曲,这样就能给用户进行推荐了。相信类似这种样例还有非常多。 (关于这点思考:词能够使一个标号或者理解为一个类的对象! ) 先上图: 个人感觉这个解说的非常具体~ 注意:1。 输入为一个窗体的待预測上下文 2. 输入层Wj 是维度为K的列向量,(syn0 编码?)如有 N个输入词。则输入大小为k*N 3. 隐层 Tk ...


