Lucene学习笔记(1)
Lucene学习笔记 可以搜索文本文件,理论上可以搜索任何类型的数据。只要先把数据转化为文本,就可以对数据进行索引和搜索。 使用了反向索引的机制,维护一个词/短语的表,对于每个词和短语都有一个链表描述有哪些文档包含这个词和短语。这样用户输入查询条件的时候,搜索引擎先对输入的条件分词,分成词和短语,然后到建立好的索引上面查找,最终返回索引相关的文档。 1、首先对文档进行分词。 2、然后将分词的结果进行索引的创建。 结构化数据:数据库数据,元数据 半结构化数据:xml、html 非结构化数据:全文数据,word文档,email 全文检索:新建立索引,在进行搜索。 建立索引 1、准备文档 2、将文档传给分词组件tokenizer a) 将文档分成一个个的单词 b) 去除标点 c) 利用停词集合,去除停词(最普通的词,没有任何意义,英文中的the,a,this等等) d) 得到词元token 3、将词元token传给语言处理组件linguistic processor a) 变为小写 b) 将单词缩减为词根形式,如cars到car,drove到drive,前者是缩减,后者是转变。前者给予某种算...

