倒排与列存
一直傻傻分不清倒排和列存,今天有空梳理一下,主要有四个概念要明确:
1. 索引方式: 正向索引,反向索引(倒排)
2. 存储方式: 行存,列存
3. 数据结构: HashMap,B-Tree,BitMap...
4. 存储结构:
+ 顺序组织(顺序文件)
+ 索引组织(索引文件)
+ 散列组织(散列文件)
+ 链组织(多关键字文件)
索引方式
- 索引方式是种指导性的的思想,和具体数据结构和存储结构没有直接关系
- 正向索引:DocId->Value
- 反向索引:Value->DocId
倒排索引 Inverted Index
- 倒排索引就是反向索引,是信息检索中最基础的索引方法,具体是把索引存为倒排表和倒排链,倒排表存的是所有的值,倒排链存的是 DocId 列表。
存储方式
- 存储方式就是正排中存
