【NLP学习笔记】(三)gensim使用之相似性查询(Similarity Queries)
相似性查询(Similarity Queries) 本文主要翻译自https://radimrehurek.com/gensim/tut3.html在之前的教程语料和向量空间和主题和转换中,我们学会了如何在向量空间模型中表示语料和如何在不同的向量空间之间转换。实际工作中,这样做的一个最常见的目的是比较两个文档之间的相似性或比较某一个文档与其它文档的相似性(比如用户查询已经索引的文档中的某一个文档) 加载字典和语料 与上一章相同,首先加载第一章中保存的字典和语料。 from gensim import corpora, models, similarities import os if(os.path.exists('./gensim_out/deerwester.dict')): dictionary = corpora.Dictionary.load('./gensim_out/deerwester.dict') corpus = corpora.MmCorpus('./gensim_out/deerwester.mm') print("使用之前已经存储的字典和语料向量") else...

