Hash Index 原理和应用精讲

2023-09-28 416

线上沙龙 - 技术流第 35 期回放来啦

本期直播我们邀请到 KaiwuDB 高级研发工程师徐胜康，为大家分享 Hash Index 原理和应用。徐老师曾任职于 Sun Micro Systems, Lucent 等公司，具备多年 Linux/UNIX Operating System 内核、驱动、文件系统、数据库、研发工作与技术管理经验，对分布式系统、性能优化、数据加密等领域有着深入的研究。

索引数据结构是计算机科学里非常重要的，也是编程中最常使用、最有效的一种数据结构。索引结构有很多不同类型。本期直播详细对比了比较常见的多种索引结构，并着重深入讲解了哈希索引。欢迎点击链接观看本次直播回放↓↓↓

【Hash Index 原理和应用精讲-哔哩哔哩】 https://b23.tv/73yXO3b

直播重点回顾

01 背景介绍

1. 追加数据操作

存储设备有很多类型，例如，电脑文件系统、块设备、云存储、日志存储设备等，数据库和数据表也是一种存储方式。但不论何种存储形式，追加数据操作是最常用也是最有效的存储新数据的方式。

2. 追加操作的问题

尽管追加数据是插入新数据的有效方式，但会导致数据在存储设备中处于无序的状态，进而使得在无序存储中搜索某些特定数据浪费大量时间。

3. 索引资料结构是解决方案

使用索引数据结构能帮助解决如上问题，实现在无序的存储机制中快速查找数据记录。

02常用索引类型

有多种常见的索引数据结构。不同类型的索引结构以不同的方式工作，具有不同的特性。

列表类型的索引结构，如简单列表和跳过列表；
多级索引结构，如 B 树和 B+ 树；
学习索引是一种新的索引技术，但还没有流行；
哈希索引是一种常用的索引结构，也是最基本的索引结构之一。

不同类型索引结构对比：

每个索引结构都有优点、缺点和适用情况，不存在全能的索引结构。

03哈希索引

1. 原始哈希索引

哈希索引最简单的形式是有序数组，它是按键排序的数组，这种方法并不实用，因为索引键可能不是整数；然而，如果可以把索引键转换为整数，它的范围可能会很大，有效条目可能不多，从而导致记忆体利用率变低。

2. 基本哈希索引

基本哈希索引使用哈希函数将键转换为整数，哈希值用于索引桶数组，所有具有相同杂凑（键）值的资料记录将进入相同的杂凑桶。

3. 哈希索引搜索步骤

4. 哈希桶内的记录搜索

哈希桶内的资料记录未排序或组织。因此，定位到哈希桶后，在桶内进行搜寻也面临同样的问题，但规模会相对较小。

5. 改良的哈希桶设计

基于考虑 CPU 快取行和 SIMD（单指令多资料）而设计的桶格式有效地改善了桶内的搜寻。

一种新的利用 CPU 缓存行感知和 SIMD 指令的存储桶格式设计；
Bucket 结构必须与 CPU 缓存行对齐；
第一个缓存行包含：32-bit 有效位图、一个 8 字节溢出指针、32 字节签名；
随后的四个高速缓存行保存 32 个 TID。每个 TID 8 字节。

6. 改良型哈希桶搜索步骤

在大多数情况下，在桶中搜寻一条记录只需要三个步骤和三次 CPU 快取未命中。

哈希函数生成 BucketID 和 8-bit 签名码；
SIMD 比较 8-bit 签名与 32 个签,并输出 32-bit 匹配位图。32-bit 匹配位图 AND 32-bit 有效位图生成一个 32-bit 目标位图；
根据目标位图找到 TID。

04哈希索引在 KaiwuDB 中的运用

1. SQL 语法

KaiwuDB 支持多种索引类型，包括哈希索引。KaiwuDB 在哈希连接操作中也使用了哈希索引。

2. KaiwuDB 是一个高效能数据库

KaiwuDB 从一开始就内建了高性能，KaiwuDB 从架构到设计，再到编码实践都遵循最高标准和最佳实践。

KaiwuDB 是一个高性能、多功能、高集成的多模块数据库；
高性能哈希索引是 KaiwuDB 高性能产品的一部分，它主要用于表索引和散列连接；
KaiwuDB 还支持其他类型的索引，例如 B-tree。

3. KaiwuDB 是一个多功能数据库

KaiwuDB 的模块化架构和设计意味着它可以以灵活且可扩展的方式支持多种功能。

微信关注我们

原文链接：https://my.oschina.net/u/5148943/blog/10114937

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

全面解读 SQL 优化 - 统计信息

一、简介数据库中的优化器（optimizer）是一个重要的组件，用于分析 SQL 查询语句，并生成执行计划。在生成执行计划时，优化器需要依赖数据库中的统计信息来估算查询的成本，从而选择最优的执行计划。以下是关于数据库中优化器统计信息的简介：（1）统计信息概述统计信息是描述表或索引中数据分布情况的元数据。这些信息包括行数、数据分布、重复值等，都是优化器选择执行计划的关键因素。（2）统计信息来源统计信息被收集并存储在数据字典中，可以通过特定的 SQL 命令（如 ANALYZE TABLE）来手动收集；也可以被自动收集，以保持数据字典的最新状态。（3）统计信息类型统计信息包括两种不同类型的信息，系统级别和对象级别。系统级别的统计信息是全局性的，如整个数据库中所有表的平均行长度；而对象级别的统计信息是特定对象的信息，如表或索引的平均行长度、列值的分布和直方图等。（4）统计信息用途优化器使用统计信息作为计算成本的基础，从而选择最优执行计划。优化器所使用的统计信息包括表的行数、每个列的唯一值数目、平均列长度等。（5）统计信息更新数据的分布会随着时间和数据量的增长而发生变化，因...

2023-09-28

367

摘要：本文由葡萄城技术团队于OSCHINA原创并首发。转载请注明出处：葡萄城官网，葡萄城为开发者提供专业的开发工具、解决方案和服务，赋能开发者。前言在典型的系统部署架构中，应用服务器是一种软件或硬件系统，它承载着应用程序的核心逻辑。它接收客户端的请求并处理相应的业务逻辑、数据操作等任务。应用服务器通常被用于支持 Web 应用程序、移动应用程序和企业应用程序等。在应用服务器之上通常是网关服务器，在其下方是数据库服务。有趣的是，在低代码平台中，同样也存在应用服务器，今天小编将以葡萄城公司的企业级低代码开发平台——活字格为例给大家介绍网关服务器对于低代码平台的辅助作用。使用Nginx实现的应用场景在本文中，将以网关服务器Nginx为例，展示网关服务的四个场景：跨域访问：让多个应用共享同一个服务器的端口。静态资源：通过微信公众平台等验证。 IP黑白名单：满足更高的安全防护要求。访问日志：详细记录并分析系统响应能力。 1.跨域访问：让多个应用共享同一个服务器的同一个端口将同一个系统的多个模块拆分成若干个应用，不论是开发管理还是系统运维都是很值得推荐的实践模式。但如果一个应用的前端...

2023-10-07

437

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。