靠更换嵌入模型，该产品将 RAG 延迟降低了50%

2025-12-26 34

编者按： 在 RAG 系统中，一味追求更高维的嵌入模型真的意味着更好的性能吗？

文章重点介绍了 MyClone 将原有 1536 维的 OpenAI text-embedding-3-small 模型替换为 512 维的 Voyage 3.5 Lite 嵌入模型，从而实现 RAG 延迟与存储成本的大幅降低，还能在保持甚至提升检索质量的同时，明显改善用户体验。

技术的选择从来不只是参数的高低，更是与产品目标紧密对齐的战略决策。在追求高效、轻量与实时响应的今天，适合的模型往往比复杂的模型更能推动用户体验与业务价值的双重提升。

作者 | MyClone Engineering Team

编译 | 岳扬

在 MyClone.is，我们的使命是打造真正个性化的数字人格。我们通过检索增强生成（RAG）技术，为每位用户构建一个内容丰富、可交互的"知识分身" ------ 该分身基于用户上传的文档、笔记与知识库，将它们编码后存入向量数据库，为聊天对话和语音助手提供支持。

01 数字人格需要快速、可靠的检索

每当用户通过语音或文字与自己的数字人格互动时，系统都会在毫秒级时间内，基于这些向量做 RAG 检索，精准锁定知识库中最相关的知识片段，并用"像本人"的语气作答。在这一架构中，嵌入模型处于核心地位：它决定了系统对用户内容的理解深度、所需的向量存储空间，以及相关信息的检索与排序速度。毕竟，延迟是对自然对话最大的破坏。

此前，MyClone 使用的是 OpenAI 的 text-embedding-3-small 模型，该模型生成 1536 维的浮点向量，专为通用语义相似度任务优化。该模型在常见检索基准测试中表现出色，且价格相对低廉，但其默认的 1536 维向量尺寸相比低维替代方案，意味着更高的存储和带宽开销。

在高吞吐量的 RAG 系统中，1536 维向量会大幅增加内存占用、磁盘使用量和每次查询的 I/O 负载。随着用户数量和知识条目不断增长，这可能成为延迟和成本方面的瓶颈。

我们最近在 RAG 流程中识别出这一瓶颈，并果断采取行动：将 OpenAI 的 text-embedding-3-small（1536 维）替换为 Voyage-3.5 Lite（512 维）。这一改动大幅降低了存储需求和延迟，同时在用户数字人格的检索质量上不仅得以保持，甚至常常有所提升。 这类基础设施的优化，为用户带来了更快、更便宜、对话体验更自然的 AI 助手。

接下来，让我们深入探讨一下这项优化。

02 为什么 512 维的 Voyage 3.5 Lite 能媲美甚至超越 1536 维的 OpenAI 模型？

表面上看，从 1536 维降至 512 维像是一种妥协。维度更少，信息理应更少，检索质量也该下滑。然而，嵌入模型领域正因诸如 Voyage AI 所采用的 Matryoshka Representation Learning (MRL) 等创新而飞速演进。

Voyage‑3.5‑lite 采用了 Matryoshka training 和量化感知（quantization‑aware）技术，其前 256 或 512 个维度便能捕获绝大多数的语义信号，而非简单地对高维向量进行粗暴截断。公开基准测试和厂商数据表明，在降低维度后，Voyage‑3.5‑lite 仍能保持非常接近其完整维度版本的检索性能，并与主流商业模型相媲美。

相比之下，OpenAI 的嵌入模型主要设计为固定输出 1536 维，其降维通常是事后进行的（例如使用 PCA 或直接截断），除非针对每个领域进行精细调优，否则可能会丢失信息。正因如此，在"成本与延迟敏感、质量又不能打折"的场景里，Voyage-3.5-lite 显得更具吸引力。

03 MyClone 更换嵌入模型带来的收益

3.1 向量数据库效率：省存储空间，也省钱

最直接的收益体现在存储层。通过将向量维度从 1536 降至 512，我们将存储全部用户知识库所需的向量数据库存储空间减少了约 66%。

影响：这直接转化为更低的基础设施成本和更小的系统整体占用空间，使我们能够更高效地支撑不断增长的用户规模。

3.2 检索速度：释放 RAG 性能

向量数据库依赖于计算查询向量与数百万个已存储文档向量之间的相似度（通常为余弦相似度）。这种搜索的计算开销与向量的维度大小正相关。

计算更快：向量维度大小缩减至 512/1536 ≈ 1/3，使得搜索索引时的核心数学运算大大加速。
负载更轻：从向量数据库到 RAG 服务之间传输的向量更小，也进一步降低了网络延迟。

这项优化使检索延迟直接降低 50%（速度提升 2 倍）。

3.3 用户体验提升：实现自然对话

对于主打语音交互功能的数字人格而言，每一毫秒都至关重要。用户提问后若出现明显停顿，就会破坏"真实对话"的沉浸感。

检索延迟的大幅下降直接提升了整个系统的响应速度：

端到端语音延迟：从用户说完话到数字人格开始回应的总时间减少了 15% 至 20%。
首 Token 延迟：无论是文字对话还是语音界面，系统首次返回响应的时间平均缩短了 15%。 这个指标非常重要 ------ 它决定了用户多快能看到或听到系统已开始处理其请求。

04 这两款模型的并列对比图

05 为什么底层嵌入模型的选择对数字人格来说非常重要

在数字人格平台中，用户满意度与助手在聊天对话和语音交互中是否响应迅速、回答精准密切相关。更低的向量维度能有效降低检索的尾延迟（tail latency），从而直接缩短"首 Token 延迟"（time to first token），让语音对话更流畅自然，减少了"机器人般的停顿感"。

与此同时，用户又期待数字人格能准确回忆自己上传的知识内容。这意味着，任何旨在节约成本的优化，都不能牺牲检索质量，也不能引发幻觉（hallucinations）。Voyage‑3.5‑lite 专为检索场景而设计，使 MyClone 能够在"轻量级检索架构"和"高保真知识锚定"之间取得理想平衡。

06 此次优化为 MyClone 带来的业务与产品价值

从产品与业务角度来看，这次嵌入模型的优化带来了多重优势：

在大规模场景下提供更优的用户体验：更快的响应速度提升了用户对系统"智能感"和"可信度"的感知，尤其是在语音交互中 ------ 人类对延迟极其敏感。
数字人格的基础设施成本更低：3 倍的存储空间节省加上更快的查询速度，意味着向量数据库和计算资源的成本更低，MyClone 能在相同预算下托管更多用户知识。
给更多、更复杂的功能预留空间：节省下来的延迟与成本可重新投入更复杂的 RAG pipeline，例如更强的重排序（reranking）或多步推理（multi‑step reasoning），而不会超出用户可接受的延迟上限。
面向未来的灵活性：Voyage‑3.5‑lite 支持多维度输出与多种量化方案（如 int8、binary 等），为诸如"超低成本的归档存储"或"混合了二进制向量加浮点向量的检索策略"等进一步的优化敞开了大门。

对 MyClone 而言，这些收益是叠加放大的：每位用户的数字人格都能引用更多文档、响应更快、运行成本更低，同时始终忠于用户本人的语言风格、表达习惯与知识内容。

07 战略层面的启示

从 OpenAI 的 1536 维嵌入模型切换到 Voyage‑3.5‑lite 的 512 维嵌入模型，表明嵌入模型的选择本质上是一项产品决策，而不仅仅是基础设施细节。 通过将嵌入模型与大规模 RAG 的核心需求（快速、低成本、高语义质量的检索）对齐，MyClone 一举提升了用户体验与单位经济效益。

随着 RAG 系统走向成熟，像 Voyage‑3.5‑lite 这类明确针对"按需选用嵌入维度"、"支持多种量化方案"与"检索质量"进行优化的嵌入模型，将在数字人格这类对延迟敏感、知识密集型的产品中，成为默认选择。

END

本期互动内容 🍻

❓在你们的 RAG 系统中，选择嵌入模型时最优先考虑哪个指标？是延迟、成本、检索质量，还是易于集成？

原文链接：

https://www.myclone.is/blog/voyage-embedding-migration/

微信关注我们

原文链接：https://my.oschina.net/IDP/blog/19102793

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2026新年快乐

2025-12-26

17

从三折叠的产品到影像旗舰的体验升级，华为IPD的重点，源于任正非先生反复强调的商业价值创造的思考逻辑。这种类似商业投资的产品思维，本质上是一种能够精准解决用户真实问题的思考方式。很多人会问要是培养这种思维方式，有什么技巧吗？事实上，这种思维模式不是单一的技巧能覆盖的，要让我来总结，其实可以划分为几个方面： 1.用市场驱动，打破“我觉得” 像华为IPD的起点是以市场和客户需求为中心，而人类思考的天然惯性是代入自我视角。因此，产品思维的第一步，就是打破这种惯性——跳出个人经验局限，站在真实用户的立场拆解需求、定位痛点。现实中，很多产品经理会把“我觉得用户需要这个功能”当作决策理由，然后忽略了用户最关心的痛点问题。每次讲到这，我就会想到之前合作过的一个从硬件转到软件的产品经理。不可否认，他看问题的角度很独到、先进，会往产品中加很多亮点功能，但实际上，用户的实际应用场景不太会接触这些功能，花费了很多人力物力资源，最后却没有达成增长转化。当然，在IPD体系中，为了避免产品经理思维的局限和想当然的做法，会通过立项审批、市场验证、跨部门决策评审等环节来尽可能地规避。但回到思考方式上来...

2025-12-26

26

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。