首个提出 GraphRAG 的团队在做什么?
导读:“NebulaGraph 作为一款云原生图数据库,属于传统 Infra, 但我们逐渐意识到,AI 的发展将彻底改变数据库的应用场景和技术架构。于是,我们团队开始探索图数据库在 AI 领域的价值。”本文整理自 NebulaGraph @尚卓燃 在 KCD Beijing 上的演讲, 与大家分享 NebulaGraph GenAI Team 的工作与进展。
本文首发于「NebulaGraph 技术社区」,了解更多 NebulaGraph 信息,可访问官网
Part 1 背景趋势
01 传统 RAG 方法的痛点
传统 RAG 方法在实际应用中面临诸多挑战:
-
细粒度知识检索能力不足:举个例子,做 chunk 分块是一个很强的对信息浓度的假设,无论是用语义的方式还是固定大小来分块,一旦确定了这个分块,其实对知识被召回的数据的信息浓度做了一个很强的假设,有的时候就存在一些重要而细粒度的分散的信息没办法进行召回,质量就会有些损失。
-
全局上下文关联缺失:索引的知识块中,核心知识点和其他知识点的关联,有些知识有局部性,例如 A 和 B 在一个块关联,B 和 C 在一个块关联,C 和 D 在一个块关联,如果某些任务依赖于全局的上下文,但任务中又只提及 A 和 D,这中间的关联在做 chunk 的 RAG 索引一般是丢失的,无法获取全局上下文的关联。
-
向量相似性与相关性错配:传统 RAG 的索引方法追求相似,但实际上相似并不等于相关。例如,检索保温杯与保温大棚相关文章,在向量数据库中大概率会变成两个非常相似的向量,从而使得生活场景与农业场景产生错配。
-
全局性问题及推理型问题回答能力不足:传统 RAG 在处理全局宏观性问题和需要推理的问题时,往往只能给出片面的答案,缺乏深度分析和逻辑推理。如果将树比喻成知识,整片森林(所有的树)代表全部知识,如果问这个森林是什么形状的,很明显这是一个宏观的问题,当只召回到一部分的树是无法回答这个问题的。
02 GraphRAG 的优势
NebulaGraph 专注于图技术,已进行了多年的开源分布式图数据库的研发。在 RAG 技术还未被称为 RAG,而是上下文学习方法的时候,我们就意识到以图的方式处理知识会对解决这些问题有很大帮助。因此,NebulaGraph 率先提出了 GraphRAG 的方法,并于 2023 年 8 月与 LlamaIndex 联合发布 GraphRAG.
GraphRAG 的优势显著:
-
细粒度的切分实体和关系:通过知识图谱技术,将多模态文本中的实体和关系进行细粒度的拆分,保留高度凝练的知识细节。例如,在讨论“苹果”时,能够准确识别是指水果还是苹果手机,并明确它们之间的关系。
-
保留事物间的关联关系:在知识图谱中明确事物之间的关联,提升可解释性。比如,在工业排障场景中,通过图数据库可以清晰地展示故障之间的关联关系,高效地追根溯源,帮助用户快速定位问题。
-
图查询和图算法得到相关上下文:利用图查询和图算法,将边和实体对应的节点都提取出来,精准获取相关上下文信息,使回答更全面、更符合预期。
03 云原生图数据库 NebulaGraph 的价值
- 完整的 Infra 基座
在过去几个月里,GraphRAG 技术作为 RAG 下 state of art 的范式,得到了充分的关注,可以看到包括微软、Meta、Google都做了一些不错的工作。不过大多数实现仅仅是借用图的形式表示而并没有建立在图数据库之上,但**可以预想,随着数据量的增大,图数据库的价值在 GenAI 时代将会更加重要。**因为它是一个完整的 Infra 基座,对各种运行环境和云厂商具有良好的兼容性,能够与 K8S 等技术深度集成,原有日志、可视化等工具也可完整接入,无需额外定制化开发和运维保障,这使得企业可以充分利用现有的技术资源去使用 GraphRAG.
- 大规模复杂场景检验
某知名海外社交平台的好友推荐、广告推荐等场景,充分证明了 NebulaGraph 在高实时性、高精度需求场景下的高性能。该社交平台的**用户关系超过 100 亿,单个最大规模图谱超过 400 亿点,1000 亿边,但仅需 2 个工程师就可以维护所有与 NebulaGraph 相关的产品,**有效降低运维成本。
(了解更多用户案例,可下滑至文章底部,按场景查看🔍)
Part 2 技术路线
01 GraphRAG-Agentic Workflow
以往大家 RAG 的理解是检索增强生成,但我们对 RAG 的理解分为以下三个部分:
-
Retrieval(检索):检索大量数据,补充数据实时性,将多模态数据转化为可检索形式。
-
Agent(智****能体):可定义工具集,调用各种方法和生态产品。比如,在处理复杂问题时,Agent 可以调用不同的工具和算法,进行多轮推理和分析。
-
Ground Truth(真实情况):Ground Truth 的建设是通过 "专家经验 Human in Loop + 机器智能" 的协同机制,构建可复用、可进化的知识体系,实现知识与真实世界的同构映射,确保不同业务场景、不同阶段的应用均可基于相应的事实基准开展工作。
02 GraphRAG-ParseCraft
为什么不是完全依赖现有工具去做这个事情,而是需要自己去研发一些组件呢?因为在整个解析的流程中可能涉及到一些预处理和后处理的工作,而且对于特定的内容需要有足够的能力来干涉解析过程,确保生成符合预期的结果。比如在我们的场景中可能会涉及的部分包括:
-
特定领域的内容的理解和表征:比如故障树分析,这个场景拿到的是一个图片,但是图片上的事件存在关联关系,我们需要把它转换到图上面,并标识这些关键路径和事件。
-
通用场景下的关键结构的转换:比如文章的段落、目录,天生就是具有结构化、和领域化的内容,比如一个章节内大概率是围绕相关主题展开的,在解析过程中需要留存;再比如布局之间的关联,可能影响上下文,如果要精细地做一些事情,可能不得不将这些信息保存下来。
ParseCraft 注重集成性和可定制性,作为接入层,除了定制基于视觉语言模型的解决方案外,还能融合文档解析、布局识别等方案,只需实现少数几个 API ,就可以获得格式转换和可观测性的能力增强。预计今年上半年开源。例如,在处理复杂的文档和表格时,ParseCraft 可以将其转化为大模型易于理解的格式,提高处理效率。
03 GraphRAG-Deep Seach
我们目前的 GraphRAG 实现本身也是符合 Agentic 范式的,结合推理模型,如 DeepSeek R1 / Qwen QwQ 等,可以对任务进行预先规划,并驱动在 Workflow 中进行多轮探索和评估,与 Deep Search 充分兼容,能够节约开销、增强效果。
04 GraphRAG-All in MCP
我们团队积极参与 MCP 相关工作,输出 LlamaIndex 社区第一个 MCP 工具支持方案,落地 Local MCP 范式,并且进入官方 repo 进行集成。此外,我们实现内部工具集定义落地了 Local MCP 范式,在复用 MCP 相关接口标准的同时,改用函数调用的模式,为内部工具调用和后续开放 MCP 服务能力提供基础。实现函数调用与接口复用。例如,在处理复杂的图查询时,MCP 可以提供强大的支持,提高查询效率和准确性。(MCP 集成至 LlamaIndex 完整教程,详情请查看🔍)
05 Graph Insight-Text to GQL
早期数据库领域和大模型结合的一个重要方向就是 Text2SQL ,对于图数据库,对应的就是 Text2Cypher,当然,随着 ISO GQL 标准的确立,现在 Text2GQL 也成为了关键的一环。NebulaGraph 在这个方向上也做了一些努力,沉淀出了一套 Graph Insight 的方法。
一方面,利用基础的 Text2GQL 方法,用户可以以问答形式在已有图谱上进行简单的图查询和图计算。另一方面,通过利用内置的一些算子模版,可以将复杂的图查询转化为填空题,降低大模型编写复杂查询语句和探索图的难度。通过提示词工程和 ReAct 等方式,Agent 可以利用上下文对生成的 GQL 语句进行自校准,帮助写出更加准确和符合业务目标的 GQL 语句。
当然,用户也可以在这个基础上将过去积累的图算法作为模版封装,充分利用过去业务场景积累的经验,释放图上的价值。
06 Graph Insight- Agentic & CoE
Graph Insight 我们聚集 Agentic 范式图探索能力与 Chain of Exploration(CoE),构建了一套高效的图知识处理与分析体系。不仅能深度挖掘图谱内的知识,还能以自然融合的方式整合多源数据 —— 将图探索作为 Agent 调用的工具,无缝对接互联网知识等外部数据源,打破单一数据边界,实现知识的跨域协同。
07 Graph Insight - MCP
针对热门的 MCP方向,团队构建了 NebulaGraph MCP Server(已正式开源,详情请查看🔍)。该服务不仅为大模型提供查询接口,支持直接调用执行图数据查询,还预封装了实用的算子模板,包括邻居发现、路径发现等核心功能,简化图数据操作流程。
Part 3 应用案例
01 产品 - 图 AI 工具链
我们面向开发者提供了一套完整的工具链,包括对向量、全文索引等能力做了支持,方便企业自行开发 AI 应用,核心功能包括图谱构建、图谱推理、模型微调等。
02 产品 – 图 AI 应用平台
面向终端用户,开箱即用,帮助用户以对话方式快速构建 AI 应用,如智能客服机器人、故障排查助手、研报生成机器人等,具有智能文档处理、零代码、零工作流、零提示词设计等特点。用户可以通过简单的对话方式,快速构建一个智能客服机器人,提高客户服务效率。
03 工业解决方案
NebulaGraph 与行业头部企业协作,构建面向工业协同研发系统的 Graph + AI 解决方案,落地行业首个生成式人工智能驱动的实际应用场景,基于知识图数据库及智能问答系统进行数据交互,荣获沙丘社区 2024 最佳案例 15 强。
此外,在复杂排障知识图谱的构建和探索上,我们也积累了一定经验,充分运用大模型赋能排障系统,在一些场景下拥有超过 40 万有效节点。
04 金融行业解决方案
利用基于大模型的知识图谱自动抽取和构建技术,和在金融领域深耕积累的经验洞见,NebulaGraph 和合作伙伴共同构建和发布基于 GraphRAG 和 Agentic Workflow 的行业解决方案,共同推动 Graph + AI 技术在金融风控等领域的发展。
结语
NebulaGraph 在 GenAI 领域的探索和实践,不仅解决了传统 RAG 方法的痛点,还通过云原生图数据库的价值,为各行业提供了强大的技术支持。未来,NebulaGraph 将继续深化技术路线,拓展应用领域,推动 GenAI 技术的不断发展和创新。
🙋活动推荐
诚邀您参加【NebulaGraph x Airwallex 图数据库与风控】上海站,一场聚焦于图数据库与 GraphRAG 在风控领域创新应用的 nMeetup,点击海报了解活动详情,点此报名~
🔍相关阅读
首发完整版教程,MCP 集成至 LlamaIndex 的技术实践
NebulaGraph MCP Server 正式开源!探索 AI+图数据库无限可能
GraphRAG vs DeepSearch?GraphRAG 提出者给你答案

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
图解「模型上下文协议(MCP)」:从与传统 API 的比较入手
编者按: AI 应用如何像智能终端连接配件一样,无缝集成多样化的工具和数据源?答案或许就藏在近期热议的「模型上下文协议(MCP)」中。 我们今天带来的这篇文章,作者的核心观点是:MCP 通过标准化通信协议,让 AI 应用与外部工具、数据的交互如同 USB-C 接口一般高效且灵活,彻底改变传统 API 架构的僵化限制。 文章详细介绍了 MCP 的核心架构,包括 Host(提供 AI 交互环境的应用程序)、Client(实现与 MCP Servers 通信)和 Server(提供特定能力和数据访问)三大组件。重点解释了 MCP 的 Capability Exchange(能力交换)机制如何使系统更加动态灵活,允许服务器随时更新其功能而无需客户端重写代码。 作者 | Avi Chawla 编译 | 岳扬 最近,关于模型上下文协议(MCP)的讨论非常热烈。你一定听说过它。 今天,让我们一起来了解一下模型上下文协议(MCP)。 直观地说,MCP 就像 AI 应用的 USB-C 接口。 正如 USB-C 为设备连接各种配件提供了标准化方案,MCP 也将 AI 应用连接到不同数据源和工具的方式标准化...
- 下一篇
谁是 AI 搜索先锋? Elastic 先锋者招募令正式启动!
在人工智能(正文简称“AI”)技术深刻重构全球产业生态的当下,AI 搜索技术正以革新性力量驱动千行万业智能化跃迁。值此技术变革关键节点,业界领先的搜索分析引擎 Elasticsearch 也迎来了自己 15 年的里程碑,Elastic 公司宣布于 3 月 26 日在中国市场正式启动“Elastic Pioneer” 先锋者计划。这一计划,是 Elastic 中国精心筹备的 Elastic 推广大使招募项目,旨在汇聚社区开发者的力量,共同构建 AI 搜索技术应用新范式,加速企业数字化转型进程。 AI 搜索 是现代化生活与企业发展的技术基石 通过创新的 AI 搜索技术,Elastic 持续为消费级与企业级市场提供创新解决方案。在消费领域,其技术矩阵已深度融入高频生活场景:电商平台依托智能推荐算法引擎实现「千人千面」的精准商品匹配;本地生活服务系统通过聚合功能的实时行为分析技术快速定位用户偏好商户;智慧出行场景则借助地理空间数据的分析能力,显著提升交通效率并降低时间成本。 在企业数字化转型进程中,Elastic Search AI Platform 凭借其开放架构与生成式 AI 优化能力,成...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8安装Docker,最新的服务器搭配容器使用
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7安装Docker,走上虚拟化容器引擎之路
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能