倒排与列存
一直傻傻分不清倒排和列存,今天有空梳理一下,主要有四个概念要明确: 1. 索引方式: 正向索引,反向索引(倒排) 2. 存储方式: 行存,列存 3. 数据结构: HashMap,B-Tree,BitMap... 4. 存储结构: + 顺序组织(顺序文件) + 索引组织(索引文件) + 散列组织(散列文件) + 链组织(多关键字文件) 索引方式 索引方式是种指导性的的思想,和具体数据结构和存储结构没有直接关系 正向索引:DocId->Value 反向索引:Value->DocId 倒排索引 Inverted Index 倒排索引就是反向索引,是信息检索中最基础的索引方法,具体是把索引存为倒排表和倒排链,倒排表存的是所有的值,倒排链存的是 DocId 列表。 存储方式 存储方式就是正排中存

























