Google Cloud 发布开放知识格式 OKF，用 Markdown + YAML 终结 AI 智能体的知识孤岛-低调大师

Google Cloud 发布开放知识格式 OKF，用 Markdown + YAML 终结 AI 智能体的知识孤岛

2026-06-16 2

Google Cloud 宣布推出开放知识格式（Open Knowledge Format，简称 OKF）v0.1 版本，并同步在 GitHub 上以 Apache 2.0 许可证开源了规范全文、参考实现和示例数据集。这个公告没有引发像新模型发布那样的轰动——它不涉及任何 GPU、推理优化或模型架构突破——但它可能比大多数模型更新更值得被关注。因为 OKF 试图解决的，是当前 AI 智能体（Agent）生态中一个被长期忽视却又最为昂贵的问题：每一支团队都在重复解决"如何让 AI 获得正确的上下文"这个工程难题，而每一次解决方式都是定制的、不可复用的，最终成为一套套彼此隔离的知识孤岛。

OKF 的定义简单到几乎令人失望。它就是一个由 Markdown 文件组成的目录结构，每个文件代表一个"概念"（concept）——可以是一张 BigQuery 表、一个业务指标、一条 API 端点、一份事故 Runbook。每个 Markdown 文件顶部包含一小块 YAML 前置元数据（frontmatter），整个规范对字段的要求只有一个：type（类型）。其他字段——title、description、resource、tags、timestamp——全是推荐项而非强制项。Google Cloud Data Cloud 团队的技术负责人 Sam McVeety 和 BigQuery 技术负责人 Amir Hormati 在联名博文中用三句话概括了 OKF 的本质："就是 Markdown——可以在任何编辑器中阅读，可以在 GitHub 上渲染，可以被任何搜索工具索引。就是文件——可以打成 tarball，托管在任何 git 仓库，挂载到任何文件系统。就是 YAML frontmatter——只为少数需要可查询的结构化字段。"

如果你用过 Obsidian、Notion、Hugo，或者过去一年里各种以"AGENTS.md"或"CLAUDE.md"命名的仓库约定文件，OKF 的形态会立刻让你觉得熟悉。这正是 OKF 设计的出发点——它不是在发明一种新的知识组织方式，而是将一个已经由开发者社区在实践中反复验证过的模式，规范化为一个互操作标准。

这个模式的核心思想，最简洁的表达来自著名 AI 研究者 Andrej Karpathy。他在一篇广为流传的 GitHub Gist 中提出"LLM Wiki"的概念，并写道："LLM 不会感到无聊，不会忘记更新交叉引用，一次可以触碰 15 个文件。"那些让人类放弃维护个人维基的"簿记工作"——更新索引、维护一致性、补充交叉链接——恰恰是 LLM 最擅长的机械劳动。过去一年里，这种"将知识写成 Markdown 维基，让 AI 智能体自动维护和查询"的模式以不同名字反复出现：Obsidian 仓库连接编码智能体、AGENTS.md 和 CLAUDE.md 系列约定文件、数据团队内部盛行的"metadata as code"仓库。问题是，每个团队都在用相同的语法写不同方言的"语言"，没有人对跨团队互操作该怎么做达成共识。

OKF 所做的，就是为这门已经存在但不规范的语言写一部通用的语法书。Google Cloud 在公告中强调了 OKF 与 MCP（模型上下文协议）、RAG（检索增强生成）以及 AGENTS.md/llms.txt 等约定文件的关系：它不是替代者，而是互补者。MCP 是动态的工具调用"插座"，OKF 是从这个插座中流出的知识"电流"；RAG 处理的是大规模动态文档集合的语义搜索，OKF 处理的是稳定的、可策展的结构化知识；AGENTS.md 和 Claude.md 是特定仓库内的自描述约定，OKF 则是这些约定的跨组织标准化版本。

与规范同时发布的三项参考实现揭示了 OKF 的完整工作流程。第一项是一个"知识富化智能体"（enrichment agent）：它遍历 BigQuery 数据集，为每张表和视图生成一份 OKF 概念文档初稿，然后启动第二轮 LLM 处理，爬取权威文档页面并自动为每份概念文档补充引用来源、表结构和表之间的关联路径。第二项是一个静态 HTML 可视化工具：它将任何 OKF 知识包（bundle）渲染为一个交互式的知识图谱，整个工具是一个独立的 HTML 文件，不需要后端、不需要安装、用户浏览的数据不会离开页面。第三项是三套可直接浏览的示例知识包，覆盖了 Google Analytics 4 电子商务数据、Stack Overflow 公开数据集和比特币公开数据集——全部由参考智能体自动生成并提交到 GitHub 仓库。

sales/
├── index.md
├── datasets/
│   ├── index.md
│   └── orders_db.md
├── tables/
│   ├── index.md
│   ├── orders.md
│   └── customers.md
└── metrics/
│   ├── index.md
     └── weekly_active_users.md

---
type: BigQuery Table
title: Orders
description: One row per completed customer order.
resource: https://console.cloud.google.com/bigquery?p=acme&d=sales&t=orders
tags: [sales, revenue]
timestamp: 2026-05-28T14:30:00Z
---

# Schema

| Column        | Type      | Description                              |
|---------------|-----------|------------------------------------------|
| `order_id`    | STRING    | Globally unique order identifier.        |
| `customer_id` | STRING    | FK to [customers](/tables/customers.md). |

# Joins

Joined with [customers](/tables/customers.md) on `customer_id`.

从设计哲学来看，OKF 遵循三条原则。第一条是"最低限度的意见"（minimally opinionated）：规范只强制要求 type 这一个字段，其余的——允许存在哪些类型、需要什么额外字段、正文段落如何组织——完全留给知识的生产者决定。规范定义的是互操作表面（interoperability surface），而不是内容模型。第二条是"生产者与消费者独立"（producer/consumer independence）：人类手写的知识包可以被 AI 智能体消费，机器生成的元数据导出可以被人类在文本编辑器中浏览，一个 LLM 合成的知识包可以被另一个 LLM 查询。格式本身是契约，两端的工具可以独立替换。第三条是"格式而非平台"（format, not platform）：OKF 不绑定任何云、数据库、模型提供商或智能体框架。规范本身永远不会要求使用专有账号或 SDK。Google Cloud 之所以将它以开放标准的形式发布，正是因为"知识格式的价值取决于有多少方在使用它，而不是谁拥有它"。

一个值得注意的细节是：Google Cloud 在发布 OKF 的同时，已经更新了自己的 Knowledge Catalog（知识目录）产品，使其能够原生摄取 OKF 知识包。这是一种典型的 Google 开源策略——先建立一个开放标准，然后让自己家的产品成为首批兼容者。但与历史上许多类似的"先开放后绑定"策略不同，OKF 的设计本身几乎不给绑定留下空间。一个只有 Markdown 文件加 YAML frontmatter 的格式，门槛低到任何团队都可以用 Git 仓库作为它的分发渠道，用任何静态站点生成器作为它的呈现工具，用任何文本编辑器作为它的创作环境。如果 Google 明天停止维护 OKF，OKF 的知识包依然可读、可用、可迁移。

OKF 的出现也揭示了一个更深层的行业趋势：AI 智能体的瓶颈正在从"模型够不够聪明"转向"模型有没有正确的信息"。当基础模型的能力曲线仍在攀升，智能体系统在实践中遇到的最大障碍往往不是推理能力不足，而是它们被要求回答"如何从我们的事件流中计算周活跃用户"时，答案散落在三个不同的数据目录、两份共享文档和一位资深工程师的脑子里。OKF 为这个问题提供的不是一个更聪明的模型，而是一套让知识变得可结构化、可迁移、可被任意智能体消费的基础设施。在 AI 工具链的分工图谱上，这意味着"知识工程"正在从散兵游勇的个人实践进入标准化和工程化的新阶段。

参考来源：

微信关注我们

原文链接：https://www.oschina.net/news/459806

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

AI 本质上是代码，不可能通过 prompt 变得更聪明

在 AI 编码助手被捧上神坛的 2026 年，两起事件精准地揭示了这些工具的本质：它们不是会思考的助手，而是可以任意摆布的无脑机器。从 Java 测试工具 jqwik 的"反 AI 陷阱"引发开发者删库风波，到 Shai-Hulud 蠕虫在 npm 生态持续蔓延并加入反 AI 扫描对抗技术，这些事件共同指向一个结论——LLM 终究是 token 生成器，无论你给它灌多少 prompt，它都不会获得真正的智能。 jqwik 是一个 Java 属性测试工具，由德国开发者 Johannes Link 维护。Link 是一位坚定的 AI 怀疑论者，他认为大语...

2026-06-16

1

一、为什么会有这两个东西当一个 AI Agent 接入的工具（Tool）越来越多——本地业务函数、几十上百个 REST API、外加若干 MCP 服务端——会同时撞上两个问题： Token 成本。所有工具的完整定义（名称、描述、参数 JSON Schema）默认会在每次请求时全量塞进上下文。Spring AI 文档给的数字是：一个多服务端配置很容易超过 50 个工具，对话还没开始就消耗掉大量 token；其社区项目 README 进一步举例，50+ 工具可能占用 55,000+ token。选择准确率。当模型面对 30+ 个名字相似的工具时，...

2026-06-17

12

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。