从业务需求到能力扩展 | 阿里云Elasticsearch向量检索能力的创变史-低调大师

从业务需求到能力扩展 | 阿里云Elasticsearch向量检索能力的创变史

2019-12-05 870

本文字数：1874
阅读时间：约3~5分钟

您将获得
1、阿里云 Elasticsearch 向量检索能力的演变过程
2、如何使用向量检索
3、未来阿里云 Elasticsearch 的探索之路

以下是正文

创意的诞生

阿里云 Elasticsearch 是目前公有云营收增长最快的大数据产品之一。随着客户数的增长，我们发现随着 AI 技术的不断普及，针对向量检索场景的需求量在逐步提升。比如人脸识别、音/视频识别、商品智能推荐等场景，技术上都离不开向量检索的能力作为支撑。以某专有云客户为例，客户的场景是视频安全监控，摄像头每天会产生500万帧采样图片，每个月产生TB级的向量数据，业务上需要实时对这些视频采样数据进行图片比对搜索。该客户属于典型的时序+向量检索的场景，而时序分析场景刚好是 Elasticsearch 最擅长的部分，那么我们能否在Elasticsearch现有能力的基础上补充向量检索的支持能力呢？基于这个朴素的想法，我们开始了与阿里巴巴达摩院向量检索团队的合作，希望借助达摩院自研的向量检索引擎补充阿里云 Elasticsearch 在向量检索方面的能力，一站式解决云上用户全文检索、时序分析及向量检索的需求。

简单介绍一下阿里云 Elasticsearch 使用的 Proxima 向量引擎库：阿里巴巴达摩院提供的 Proxima 向量检索引擎是一个运用于大数据下，实现向量近邻搜索的高性能软件库，能够提供业内性能和效果领先的基础方法模块，支持图像搜索、视频指纹、人脸识别、语音识别和商品推荐等各种场景。同时，引擎对向量检索的一些基础能力，如聚类、距离计算、高并发、Cache 等做了深层次的优化。

目前 Proxima 向量检索库在阿里集团覆盖的生产业务如图所示：

优选在线方案

如何将 Proxima 引擎库集成到阿里云 Elasticsearch 生态中，有两个方向摆在我们眼前：一种是最直观也是最简单的离线方案，也是集团内其它兄弟团队大部分采用的方案，依赖独立的离线资源做索引全量 Build；另一种是在线方案，也是无缝对接 Elasticsearch 现有能力、易用性最好的方案，但写入性能和存储相对会有一些Overhead。两种方案优劣势对比如下：

考虑到云上客户大多数对弹性和稳定性要求比较高，我们最终选择了易用性、稳定性更好的在线方案。

详解设计方案

在确定在线方案的前提下，如何能满足 Proxima 向量索引和 Elasticsearch 原生索引无缝集成呢？答案是利用 Lucene的 Codec 扩展机制。Codec 可以理解为 Lucene 索引文件格式的一种协议，用户只要实现对应的写入/读取的业务流程，即可自定义正排、倒排、StoreFields 等不同索引的具体实现。在阿里云 Elasticsearch 的实现中，我们包装并扩展了Lucene 的 Latest Codec，当向量数据写入es的某个字段时，前期流程跟原生的流程一致，先放入 indexBuffer 中；等内部发起 Refresh 时，调用底层的 Proxima 库，消费向量数据构建出 Proxima 的向量索引。

查询的时候，由于向量索引和原生索引一样都是 Segment 粒度生成，所以我们只要很轻量的实现向量 Segment 对应的 Weight 和 Scorer即可。具体的，当查询到了 BuildScorer 阶段，我们利用底层 Proxima 库加载当前 Segment的向量索引文件，通过 Native 方法查询出TopN的 id 和 Score 后，通过docID和分数生成当前 Segment 的 Scorer，交给indexSearcher继续执行上层的求交/求并操作即可。

基于 Codec 机制，向量索引已经可以被 Lucene 当成普通索引来管理，这对上层的 Elasticsearch 来说是完全透明的，所以可以实现不修改上层业务的前提下，兼容 Elasticsearch 所有上层的分布式文件操作；所有扩副本、本地 Failover 、阿里云快照备份/恢复等功能都与原生普通索引无异。因此大大提高了索引的稳定性，降低了用户的使用成本。

性能与效果测评

以下是阿里云Elasticsearch 6.7.0版本环境实测数据，机器配置为数据节点16c64g*2 + 100G ssd云盘，数据集为Sift128维 Float 向量（http://corpus-texmex.irisa.fr/）
数据总量为2千万。索引配置全部是默认参数。

使用说明

5.1 创建索引

PUT test
{
  "settings": {
    "index.codec": "proxima",
    "index.vector.algorithm": "hnsw" # 可选值: hnsw/linear
  },
  "mappings": {
    "_doc": {
      "properties": {
        "feature": {
          "type": "proxima_vector", # 向量字段
          "dim": 2 # 向量维度，支持1~2048维
        },
        "id": {
          "type": "keyword"
        }
      }
    }
  }
}

5.2 添加文档

POST test/_doc
{
  "feature": [1.0, 2.0], # float数组，数组长度必须与mapping指定的dim保持一致
  "id": 1
}

5.3 检索

GET test/_search
{
  "query": {
    "hnsw": {  # 与创建索引时指定的algorithm一致
      "feature": {
        "vector": [1.5, 2.5], # float数组，数组长度必须与mapping指定的dim保持一致
        "size": 10 # 指定召回的topN
      }
    }
  }
}

6.总结展望

阿里云 Elasticsearch 始终致力于为云上用户提供一站式的高性能、低成本的大数据检索分析服务。向量检索引擎是我们在人工智能领域迈出的第一步，后续的发力点还有很多，比如支持更丰富的近似算法、支持离线训练、硬件加速等，有很多有意思的方向等待我们一起探索。目前阿里云ES向量检索引擎即将在下一版本上线公有云，有需求接入的用户可以提前提工单给我们沟通使用场景，感谢大家的支持。

关于向量检索更具体的产品介绍，请点击访问【向量检索插件使用最佳实践】

加入我们

微信关注我们

原文链接：https://yq.aliyun.com/articles/738155

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

上云安全必须了解的安全产品-阿里云盾

据国家互联网应急中心（CNCERT）今年4月发布的《2018年我国互联网网络安全态势报告》显示，CNCERT协调处置网络安全事件约10.6万起，其中安全漏洞、网页仿冒事件最多。而在各类型网络安全事件数量中，云平台上的攻击次数、被篡改网站数量均占比超过50%。同时，木马和僵尸网络恶意程序控制端IP地址数量占比达59%，这表明来自云平台的网络攻击不可小觑。为了切实有效地拦截黑客扫描和入侵行为，最大程度减少网站被黑、被挂黑链等安全事故发生，阿里云通过自主研发，推出了自己的分布式大规模防护产品——云盾，能有效拦截黑客扫描和入侵行为，极大增强云主机的安全性，为用户的网站安全运营保驾护航。告别挂马、攻击、黑链和恶意代码，网站运行更安全据CNCERT分析原因，云平台成为网络攻击的重要目标主要是因为云服务存在便捷性、可靠性、低成本、高带宽和高性能等特性，攻击者更多的利用云平台设备作为跳板机或控制端发起网络攻击。鉴于这种情况，阿里云自主开发了一套大数据安全防护系统——云盾，可快速且精准识别网站和服务器的漏洞扫描、入侵检测，将漏洞扫描、在线挂马、漏洞入侵等非法行为“快准狠”地拦截在入口之外。云盾可以极...

2019-12-05

778

问题起因必须先吐槽一下 Cloudera 6.x 和 Hbase 2.0 太坑了！不久前生产上的一套Hbase集群出现著名的RIT（Regions in Transition）问题。查看hbase web ui 于是通过hbck命令查看一下集群状态，果然好多inconsistency ... ERROR: Region { meta => XXX,XXX:,1573019231000.ff2aecaf28917792395c341d01e0b8cc., hdfs => hdfs://nameservice1/hbase/data/default/XXX/ff2aecaf28917792395c341d01e0b8cc, deployed => , replicaId => 0 } not deployed on any region server. ... ERROR: Found inconsistency in table XXX ... 9 inconsistencies detected. Status: INCONSISTENT 看到错误提示问题...

2019-12-05

1986

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。