如何确定网页和查询的相关性
本文分为两部分 搜索关键词权重的科学度量TF-IDF 利用python的工具包计算文本的TF-IDF 1. 搜索关键词权重的科学度量TF-IDF 查询:原子能的应用 首先进行分词:原子能、的、应用 根据直觉知道:包含这三个词较多的网页比包含少的网页与我们的需求相关性更好 漏洞:内容多的比内容少的占优势 改进:归一化。即用关键词的个数除以网页总的词数,商称为”单文本词频“TF(Term Frequency)。比如”原子能、的、应用“三个词出现的词数分别为2、35、5,网页中一共有1000个词,那么三个词的TF分别为:0.002、0.035、0.005。查询与网页的相关度即总词频公式如下。那么三者之和0.042就是关键词在该网页中的总词频。 TF1+ TF2+ ... + TFn 漏洞:”的“几乎在每个网页中都出现,对确认网页的主题几乎没什么价值 改进:我们把"这些词称为”停止词“(Stop word),比如:”的“, ”和“, ”是“,附录有几种停用词表。那么”原子能的应用“总TF=0.002 + 0.005 = 0.007 漏洞:”原子能“的对网页的价值比“应用”更大 改进:对...

