有了向量数据库，我们还需要 SQL 数据库吗？-低调大师

有了向量数据库，我们还需要 SQL 数据库吗？

2023-12-29 413

“除了向量数据库外，我是否还需要一个普通的 SQL 数据库？”

这是我们经常被问到的一个问题。如果除了向量数据以外，用户还有其他标量数据信息，那么其业务可能需要在进行语义相似性搜索前先根据某种条件过滤数据，例如：

在法律领域，可能只需要从某个特定数据库中搜索相关的法律条款；
在零售业，可能需要搜索某个尺码的男鞋；
在图像搜索时，可能希望搜索 2010-2016 年上映且 IMDB 电影评分高于 7.0 的电影的海报。

对此，我们的答案是——不需要。用向量数据库 Milvus 或全托管的 Milvus 服务——Zilliz Cloud，就无需额外再维护一个 SQL 数据库存储标量了。只要一个系统，用户便可起送实现“向量搜索+标量过滤”的混合查询，从而获取更精准的搜索结果。

其中，Milvus 允许用户在进行向量搜索时依据标量数据进行条件过滤，数据属性可以是除向量以外的任何字段。Milvus 会对向量字段创建向量索引并进行向量相似性搜索，与此同时，还可以通过表达式对搜索结果进行元数据过滤。只需在搜索时输入过滤表达式，Milvus 就会帮你自动进行这两种操作。

本教程使用 Zilliz Cloud Pipelines—— Zilliz Cloud 内置的功能，用于将非结构化数据编码为 Embedding 向量，同时支持用文本和过滤表达式直接搜索向量。我们将演示如何利用标量过滤来召回只符合某些特定条件的文档片段，例如特定的来源网址，或者特定的文件名称。大家也可以利用类似的思路实现召回带有特定标签的文档，例如发表年份、版本号等。

01. 创建 Collection 和 Pipelines

本教程需要用到 Zilliz Cloud 免费版（海外版）。Zilliz Cloud 是全托管的 Milvus 服务，将用户的数据库部署在 Serverless 云服务器上，但我们仍旧可以通过调用 PyMiluvs API 接口在本地使用 Zilliz Cloud 向量数据库。以下用来测试的文本内容来自于 PyMilvus 文档

打开 https://cloud.zilliz.com/ 并创建 “Starter” 版本集群。

添加 Collection 名称，点击“创建 Collection 和集群”。

默认情况下，创建 Zilliz Cloud 集群时会同时创建 1 个 Collection，本教程中不会使用它。后面我们创建 Zilliz Cloud Pipelines 时，会自动创建另一个 Collection。请注意，这两个 Collection 不相同。

在左侧导航栏中点击 Piplines，跟随界面提示创建 Pipelines 并上传数据：

a. 请先选择创建“Ingestion Pipeline”。

b. 选择刚刚创建的 Serverless 集群，分别输入 Collection 和 Pipeline 名称，点击“添加 function”。

c. 选择INDEX_DOC function，输入function名称，其他参数值保留默认即可，点击“添加”。这个function会将文档切片生成向量。

d. （可选）再次点击“添加 function”。

e. （可选）选择 PRESERVE function，并为其命名，点击“添加”。这个 function 用来保存文档的标签信息。

点击“创建 Ingestion Pipeline”。现在，我们已经完成创建 Ingestion Pipeline 和 Collection。

点击“创建 Deletion 和 Search Pipeline”。
进入 Pipelines 列表页面，点击按钮“▶️”运行 Ingestion Pipeline。

Ingestion Pipeline支持上传您在对象存储上的文件（例如AWS S3 和 Google Cloud Storage）。本例中我们将数据上传至 AWS S3。上传完成后，点击“通过 Pre-signed-URL 分享”。复制分享链接（Pre-signed URL）。如果没有对象存储，可以使用我们提供的测试文件链接 https://publicdataset.zillizcloud.com/milvus_doc.md 当作Pre-signed URL。

在代码中粘贴Pre-signed URL 并点击运行。这步会将文件进行分片提取向量并导入到向量数据库 Collection 中。

进入collection页面，检查 Collection 和 Schema 是否正确。此时文档片段的向量应该已经显示在Data Preview中了。

之后，可以在 Playground 界面上或者通过调用 API 来查询数据。

02. 用标量过滤召回符合特定标签的向量

在 Pipeline 列表中找到 “Search Pipeline”并点击右侧的按钮“▶️”运行 Search Pipeline。
在请求中，输入一个问题并点击“运行”。

编辑“过滤条件”。请使用布尔表达式。点击运行后，可以看到 Zilliz Cloud 已经根据您输入的条件过滤了搜索结果。

用 Zilliz Cloud Pipelines 进行元数据过滤就是这么简单！你可以通过布尔表达式针对除向量字段以外的所有标量字段进行条件过滤。

03. 通过 API 接口进行搜索

同样，我们也可以通过调用 API 接口来进行搜索，使用 API 过程中，用户需要提供以下两点：

Zilliz API Token
Pipeline ID

我们可以通过集群详情页获取 API Token。

如需获取 Pipeline ID，请先在 Pipelines 列表页找到 Search Pipeline，随后在 Pipeline ID 一栏中复制该 Pipelines 的ID。在调用 API 接口时将 Pipeline ID 粘贴到 URL 中。


import requests, json
url = "https://controller.api.gcp-us-west1.zillizcloud.com/v1/pipelines/pipe-xxxx/run"
headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {TOKEN}",
}
data = {
    "data": {
        "query_text": SAMPLE_QUESTION
    },
    "params": {
        "limit": TOP_K,
        "offset": 0,
        # Any of these fields can be used in filter expression.
        "outputFields": ["chunk_text", "chunk_id", "doc_name", "source"],
        "filter": "doc_name == 'param.html'"
    }
}

# Send the POST request
response = requests.post(url, headers=headers, json=data)

用 API 进行元数据过滤搜索就是这么简单！如果大家有兴趣了解更多 Zilliz Cloud Pipelines 的使用方法，可以参考 Notebook用 Pipelines 搭建一个有标签过滤功能的 RAG 问答机器人，欢迎上手尝试。

微信关注我们

原文链接：https://my.oschina.net/u/4209276/blog/10456214

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

一步一步教你写kubernetes sidecar

本文分享自华为云社区《一步一步教你写kubernetes sidecar》，作者：张俭。什么是sidecar？ sidecar，直译为边车。如上图所示，边车就是加装在摩托车旁来达到拓展功能的目的，比如行驶更加稳定，可以拉更多的人和货物，坐在边车上的人可以给驾驶员指路等。边车模式通过给应用服务加装一个“边车”来达到控制和逻辑的分离的目的。对于微服务来讲，我们可以用边车模式来做诸如日志收集、服务注册、服务发现、限流、鉴权等不需要业务服务实现的控制面板能力。通常和边车模式比较的就是像spring-cloud那样的sdk模式，像上面提到的这些能力都通过sdk实现。这两种实现模式各有优劣，sidecar模式会引入额外的性能损耗以及延时，但传统的sdk模式会让代码变得臃肿并且升级复杂，控制面能力和业务面能力不能分开升级。本文的代码已经上传到gitee sidecar 实现原理介绍了sidecar的诸多功能，但是，sidecar是如何做到这些能力的呢？原来，在kubernetes中，一个pod是部署的最小单元，但一个pod里面，允许运行多个container(容器)，多个conta...

2023-12-29

407

NGINX 向云原生演进，All inOpenNJet OpenNJet 应用引擎是基于 NGINX 的面向互联网和云原生应用提供的运行时组态服务程序，作为底层引擎，OpenNJet 实现了NGINX 云原生功能增强、安全加固和代码重构，利用动态加载机制可以实现不同的产品形态，如Web服务器、流媒体服务器、负载均衡、代理(Proxy)、应用中间件、API网关、消息队列等产品形态等等。在云原生架构中作为数据平面，OpenNJet除了提供南北向通信网关的功能以外，还提供了服务网格中东西向通信能力。在原有功能基础上增加了透明流量劫持、熔断、遥测与故障注入等新功能特性。在最新发布的v2.0.0版本中，对基础框架进行了大幅优化，增加对HTTP/3的支持，进一步丰富了OpenNJet的生态，动态能力逐渐成熟。此次更新主要包括以下五个方面：基础框架大幅优化。框架的优化对于 CoPilots 进行了加固，实现了lua vm、高权限执行框架、配置沙箱等能力，从而进一步提高 OpenNJet 的稳定性以及执行效率。成熟的动态能力。对模块继续进行动态化改造，优化了动态证书管理，覆盖企业灰度发布等关键场...

2023-12-29

425

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。