Elasticsearch：dense vector 数据类型及标量量化-低调大师

Elasticsearch：dense vector 数据类型及标量量化

2024-03-11 302

密集向量（dense_vector）字段类型存储数值的密集向量。密集向量场主要用于 k 最近邻 (kNN) 搜索。

dense_vector 类型不支持聚合或排序。

默认情况下，你可以基于 element_type 添加一个 dend_vector 字段作为 float 数值数组：

PUT my-index
{
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 3
      },
      "my_text" : {
        "type" : "keyword"
      }
    }
  }
}
 
PUT my-index/_doc/1
{
  "my_text" : "text1",
  "my_vector" : [0.5, 10, 6]
}
 
PUT my-index/_doc/2
{
  "my_text" : "text2",
  "my_vector" : [-0.5, 10, 10]
}

注意：与大多数其他数据类型不同，密集向量始终是单值。不可能在一个密集向量字段中存储多个值。

kNN 搜索的索引向量

k 最近邻 (kNN) 搜索可找到与查询向量最接近的 k 个向量（通过相似性度量来衡量）。

密集向量字段可用于对 script_score 查询中的文档进行排名。这使你可以通过扫描所有文档并按相似度对它们进行排名来执行强力（brute-force） kNN 搜索。

在许多情况下，强力 kNN 搜索效率不够高。因此，dense_vector 类型支持将向量索引到专门的数据结构中，以支持通过 search API 中的 knn 选项进行快速 kNN 检索。

大小在 128 到 4096 之间的浮点元素的未映射数组字段动态映射为具有默认余弦相似度的密集向量。你可以通过将字段显式映射为具有所需 similarity 的 dend_vector 来覆盖默认 similarity。

默认情况下为密集向量场启用索引。启用索引后，你可以定义在 kNN 搜索中使用的向量 similarity：

PUT my-index-2
{
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 3,
        "similarity": "dot_product"
      }
    }
  }
}

注意：用于近似 kNN 搜索的索引向量是一个昂贵的过程。提取包含启用了 index 的向量字段的文档可能需要花费大量时间。请参阅 k 最近邻 (kNN) 搜索以了解有关内存要求的更多信息。

你可以通过将 index 参数设置为 false 来禁用索引：

PUT my-index-2
{
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 3,
        "index": false
      }
    }
  }
}

Elasticsearch 使用 HNSW 算法来支持高效的 kNN 搜索。与大多数 kNN 算法一样，HNSW 是一种近似方法，会牺牲结果精度以提高速度。

自动量化向量以进行 kNN 搜索

密集向量类型支持量化以减少搜索浮点向量时所需的内存占用。目前唯一支持的量化方法是 int8，并且提供的向量 element_type 必须是 float。要使用量化索引，你可以将索引类型设置为 int8_hnsw。

使用 int8_hnsw 索引时，每个浮点向量的维度都会量化为 1 字节整数。这可以减少多达 75% 的内存占用，但会牺牲一定的准确性。然而，由于存储量化向量和原始向量的开销，磁盘使用量可能会增加 25%。

PUT my-byte-quantized-index
{
  "mappings": {
    "properties": {
      "my_vector": {
        "type": "dense_vector",
        "dims": 3,
        "index": true,
        "index_options": {
          "type": "int8_hnsw"
        }
      }
    }
  }
}

密集向量场的参数

接受以下映射参数：

element_type
（可选，字符串）用于对向量进行编码的数据类型。支持的数据类型为 float（默认）和 byte。 float 对每个维度的 4 字节浮点值进行索引。 byte 索引每个维度的 1-byte 整数值。使用 byte 可以显着减小索引大小，但代价是精度较低。使用字节的向量需要具有 -128 到 127 之间整数值的维度，包括索引和搜索。

dims
（可选，整数）向量维数。不能超过 4096。如果未指定 dims，它将设置为添加到该字段的第一个向量的长度。

index
（可选，布尔值）如果为 true，你可以使用 kNN 搜索 API 搜索此字段。默认为 true。

similarity
（可选*，字符串）kNN 搜索中使用的向量相似度度量。文档根据向量场与查询向量的相似度进行排名。每个文档的 _score 将从相似度中得出，以确保分数为正并且分数越高对应于越高的排名。默认为余弦。

* 该参数只有当 index 为 true 时才能指定。

注意：尽管它们在概念上相关，但相似性参数与文本字段相似性不同，并且接受一组不同的选项。

index_options

（可选*，对象）配置 kNN 索引算法的可选部分。 HNSW 算法有两个影响数据结构构建方式的内部参数。可以调整这些以提高结果的准确性，但代价是索引速度较慢。

* 该参数只有当 index 为 true 时才能指定。

Synthetic `_source`

重要：Synthetic _source 通常仅适用于 TSDB 索引（index.mode 设置为 time_series 的索引）。对于其他索引，synthetic _source 处于技术预览阶段。技术预览版中的功能可能会在未来版本中更改或删除。 Elastic 将努力解决任何问题，但技术预览版中的功能不受官方 GA 功能的支持 SLA 的约束。

dense_vector 字段支持 synthetic _source。

微信关注我们

原文链接：https://my.oschina.net/u/3343882/blog/11046745

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开箱即用！随时就绪的应用可观测性 Dashboard

收到一批社区用户的使用建议后，我们在 DeepFlow 6.4 社区版中新增了一个简洁易用的「开箱即用」 Dashboard。当用户初次安装 DeepFlow、业务变更、扩容缩容时，随时都可以查看这个 Dashboard，及时发现应用的性能和稳定性隐患，深刻感受基于 eBPF 的零侵扰可观测性带来的便捷。 01 开箱即用 Dashboard DeepFlow 在此之前提供的 Application 系列 Dashboard，主要用于观测 RED（请求、错误、时延）黄金指标的历史变化、服务之间的调用关系、服务的请求日志详情。此类 Grafana Dashboard 的缺点是不同 Panel 之间的联动分析能力较弱，需要较多的手动操作。因此社区在此基础上针对初次体验、业务变更等使用场景，提供了一个新的开箱即用 Dashboard。过滤条件区域通过【过滤条件】过滤需要分析的服务。 server：需要分析服务（作为服务端） endpoint：端点，端点的提取方式参考应用协议字段映射文档 l7_protocol：应用协议，对应 HTTP、RPC、SQL、MQ、DNS 等应用协议 signal...

2024-03-11

425

在这篇全面解析CDN的技术文章中，我们深入探讨了CDN的基础概念、核心架构、多样化产品和在不同行业中的应用案例。文章揭示了CDN技术如何优化内容分发，提升用户体验，并展望了CDN面临的挑战和未来发展趋势。关注【TechLeadCloud】，分享互联网架构、云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人。一、引言在当今这个以信息消费为主导的数字时代，网页加载的速度和内容的即时可用性已经成为衡量在线服务品质的重要标准。内容分发网络（CDN）作为一种旨在加速网站内容到用户浏览器的服务，其技术、架构以及实现方式的深度解析对于理解现代互联网生态至关重要。 CDN的定义 CDN是一种分布式网络服务，它通过在全球多个数据中心缓存内容，将用户的请求重新路由到最近的服务器节点，从而减少数据传输的距离和时间，加快内容的加载速度。CDN不仅限于缓存静态内容（如图片和CSS文件），而且也能通过各种优化技术提高动态内容（如视频流和实时交互）的传输效率。 CD...

2024-03-11

418

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。