Apache Doris AI 能力揭秘(四):HSAP 一体化混合搜索与分析架构全解
AI 时代正在重塑数据库的角色。过去,数据库主要为人类分析者提供报表与查询能力;而现在,越来越多的查询来自智能代理(Agent),它们会自动检索知识、过滤数据、组合多种信号,并将数据库作为“实时信息源”支撑推理与决策。 这一根本性变化,对数据库的检索能力提出了全新挑战。传统单一的搜索模式(无论是关键词还是向量搜索)已显不足,在应对复杂多模态的 Agent 查询时,往往在缺乏结果的全面性、语义的精确性以及流程的可控性。而这就要求数据库同时具备三种能力,将结构化分析、文本搜索和向量语义搜索集为一体,实现高效的混合搜索能力。特别是在以检索增强生成(RAG)为代表的应用中,混合搜索能力变得更为关键,已成为避免幻觉、提高相关性与保持实时性的基础能力。 1. 多系统拼接方案的痛点 为实现混合搜索的能力,许多系统采用“向量数据库 + 搜索数据库 + OLAP 数据库”组合式架构来支撑类似能力。然而,多系统拼接会带来一系列问题: 数据冗余与复杂 ETL:文本数据库、向量数据库与分析数据库分别持有不同格式的数据副本,任何更新都需要跨系统同步,导致延迟与运维成本上升。 查询链路长、延迟高:一次混合搜索需要...