xAI 悄然上线 Grok Build 0.1：定价激进的新一代测试版、智能超越 Grok 4.3-低调大师

xAI 悄然上线 Grok Build 0.1：定价激进的新一代测试版、智能超越 Grok 4.3

2026-06-24 1

2026 年 6 月中旬，Elon Musk 创立的 AI 公司 xAI 在未做任何正式公告的情况下，通过 API 平台上线了一个名为 Grok Build 0.1 0616 的新模型。这个奇怪的命名——既不是常规的 Grok 4.x 系列编号，也不是标准的语义化版本号——迅速引起了 AI 开发者和评测机构的关注。

独立评测平台 Artificial Analysis 在第一时间对其进行了完整的基准测试，结果揭示了一个值得行业关注的事实：这个带有工程构建版标签的模型，在智能指数上已经超越了 xAI 目前的旗舰产品 Grok 4.3，而它的定价策略同样显示出这家公司对其下一代模型的市场定位正在发生微妙变化。

在深入分析评测数据之前，有必要先理解 xAI 目前在 AI 模型竞争格局中的位置。作为 2023 年才成立的后来者，xAI 在不到三年时间里完成了从零到参与顶级模型竞赛的跨越。它的 Grok 系列以「反政治正确」的态度和与 X 平台（原 Twitter）的深度整合为差异化卖点，在技术路线上则强调多模态理解、长上下文处理和推理能力。2025 年底发布的 Grok 4.3 在多数评测中处于第二梯队上游——实力不俗但与 Anthropic 和 OpenAI 的旗舰产品仍有明显差距。因此，当 Grok Build 0.1 0616 的 Intelligence Index 评分浮出水面时，外界对 xAI 下一代模型的预期也在被重新锚定。

Artificial Analysis 的 Intelligence Index v4.1 是当前行业公认最全面的独立基准之一，它整合了九项评测任务：GDPval-AA v2（经济与政策推理）、τ³-Banking（金融场景）、Terminal-Bench v2.1（命令行与工具使用）、SciCode（科学编程）、Humanity's Last Exam（前沿知识极限测试）、GPQA Diamond（研究生级别物理/化学/生物推理）、CritPt（批判性思维）、AA-Omniscience（跨学科知识广度）和 AA-LCR（长上下文回忆精度）。这套评测的设计哲学是测量模型在真实世界复杂任务中的综合表现，而非简单刷榜式 benchmark。

在这个评测体系下，Grok Build 0.1 0616 得分为 39.80，在 155 个被评测模型中排名第 27 位，获评 4/4 个智能等级单位。把它放在当前顶级模型的坐标中对比：Anthropic 的 Claude Fable 5 以 59.86 分大幅领跑，OpenAI 的 GPT-5.5 xhigh 以 54.84 分居次，智谱的 GLM-5.2 max 得分 51.09 排名第三。紧随其后的是 Google 的 Gemini 3.1 Pro Preview（46.46）、MiniMax-M3（44.44）、DeepSeek V4 Pro Max（44.27）、Muse Spark（43.06）和月之暗面的 Kimi K2.6（42.84）。Grok Build 0.1 的 39.80 分压过了 NVIDIA Nemotron 3 Ultra（37.76）和 xAI 自家的 Grok 4.3 high（37.58）。

解构这组排名的关键信息不在于绝对值，而在于梯度。Grok 4.3 high 到 Grok Build 0.1 之间约 6% 的提升，对于一次「Build 0.1」的内部工程迭代来说，幅度相当可观。如果这确实是 xAI 新一代基础模型的起点，那么它在正式版本迭代时还有充分的优化空间——预训练数据的清洗、RLHF 的对齐调优、推理链的长度配置，都会带来进一步的分数提升。从历史上看，Claude 3 到 Claude 3.5、GPT-4 到 GPT-4o 的迭代也都经历了类似的「早期构建版先跑通、正式版再精调」路线。

速度是 Grok Build 0.1 的另一项突出指标。它的中位输出速度为 93.3 tokens/秒，在 155 个模型中排名第 53 位，获评 3/4 个速度单位。在推理模型（reasoning models）这一细分类别中，这个速度实属上乘。与主要的同级推理模型对比：GLM-5.2 max 为 139 tokens/秒，Gemini 3.1 Pro Preview 为 138 tokens/秒，Nemotron 3 Ultra 为 136 tokens/秒——这些略快于 Grok Build 0.1。但往上看，GPT-5.5 xhigh 仅 68 tokens/秒，Kimi K2.6 为 69 tokens/秒，DeepSeek V4 Pro Max 为 77 tokens/秒——Grok Build 0.1 比这些模型快了约 20% 到 37%。在 AI 应用的实际体验中，90 tokens/秒以上的输出速度意味着大多数中等长度的回答可以在 5 到 10 秒内完成，这对于对话式 AI 和实时代码辅助场景来说，是一个重要的体验分水岭。

值得单独讨论的是 Grok Build 0.1 的冗长度特征。它在一个完整的 Intelligence Index 评测周期中生成了约 1.3 亿个输出 token，远超同类的 9300 万平均值，在 155 个模型中排名第 25 位。高冗长度在推理模型中是一把双刃剑：一方面，这意味着模型在回答复杂问题时倾向于提供更详尽的思考过程和解释——在科学研究辅助、金融分析、代码审查等场景中，这是受欢迎的；另一方面，超过均值约 40% 的输出量也意味着用户的 token 消耗会相应增加。当你在评估模型性价比时，不能只看每百万 token 的单价，还要考虑模型完成同一任务实际消耗的 token 数量——这个指标在业界被称为「token efficiency」，而 Grok Build 0.1 在这个维度上显然还有优化空间。

再看定价。xAI 为 Grok Build 0.1 0616 设定的 API 价格为输入每百万 token 收费 1.00 美元、输出每百万 token 收费 2.00 美元、缓存命中价 0.20 美元（享受 80% 折扣）。放在行业基准中理解这些数字：同类商业闭源推理模型的输入平均价约为 1.50 美元、输出平均价约为 8.00 美元。Grok Build 0.1 的定价大致是行业均价的 67%（输入端）和 25%（输出端）。每项智能任务的加权平均实际成本为 0.21 美元——在同类 11 个评测模型中排名第 5 低。作为对比，Claude Fable 5 的每任务成本高达 2.75 美元，是 Grok Build 0.1 的 13 倍。当然，考虑到 Claude Fable 5 的智能指数高出约 50%，两者的性价比曲线并不直接可比较，但 Grok Build 0.1 向市场传递的信号清晰：xAI 希望在下一代模型中实现「够用的智能」和「激进的定价」之间的平衡。

技术规格方面，Grok Build 0.1 0616 支持文本和图像两种输入模态，输出为文本，上下文窗口为 256K tokens——约等于 384 页 A4 纸的内容量。256K 窗口在 2026 年属于行业主流水准，与 GPT-5.5、Claude Sonnet 4.6 等产品相当，但与 Claude Fable 5（据报道超过 500K）和 Gemini 3.1 系列（200K-1M）相比，仍有扩展空间。xAI 未公开该模型的参数规模——这也是闭源商业模型的常态——但从其推理速度和定价来推测，它很可能不是单一的超大参数模型，而是采用了 MoE（混合专家）架构或以蒸馏加推理链优化的技术路径。

「Grok Build 0.1 0616」这个命名本身就是一个值得解读的信号。在软件工程中，「Build」意味着内部构建版——不是面向最终用户的 Release，而是在持续集成流程中产出的阶段性产物。日期戳「0616」指向 6 月 16 日的构建时间。将这两个线索与 39.80 的智能评分结合起来看，合理的推断是：这个模型很可能是 xAI 下一代大模型（或许会命名为 Grok 5 或 Grok Next）训练管线中产出的一份早期训练快照。

xAI 选择以付费 API 的形式向开发者公开这个构建版，而不是像多数 AI 公司那样在内部封闭测试直到正式发布才对外，这种做法的逻辑可能是希望借助外部开发者的真实使用反馈来加速模型迭代——对于一家以「move fast」为创业基因的公司来说，这是完全合理的选择。

参考来源：Artificial Analysis: Grok Build 0.1 0616 - Intelligence, Performance & Price Analysis

微信关注我们

原文链接：https://www.oschina.net/news/466730/grok-build-0-1-06-16

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

马斯克官宣"Starmind"，规划 100 万颗卫星入轨

埃隆·马斯克（Elon Musk）在 X 平台正式确认，SpaceX 规划中的轨道 AI 数据中心项目定名为“Starmind”。计划最高发射 100 万颗搭载 AI 算力单元的计算卫星入轨，依托部署在近地轨道的庞大卫星集群，直接为地面提供完全脱离传统机房限制的新型 AI 算力。 SpaceX在 6 月 8 日已率先公布该项目的首代硬件产品AI1。单颗卫星的设计高度达到 20 米，展开后的整机翼足有 70 米宽，整体尺寸远超波音747- 8 民航客机的机身宽度，堪称飘浮在近地轨道的巨型算力节点。单颗AI1 卫星平均可输出120kW的AI算力，峰值高达15...

2026-06-24

1

Anthropic 正式发布了 Claude Tag，一个让 Claude 以团队成员身份加入 Slack 频道的新产品。这不是一个简单的聊天机器人集成，而是一个从根本上改变了人与 AI 协作模式的系统：在频道里 @Claude，它就会像一个真正的同事那样，理解上下文、规划任务、异步执行，并在完成后主动汇报。Anthropic 还透露了一个让外界重新审视 AI 工程能力的数据——该公司产品团队 65% 的代码，已经由内部版本的 Claude Tag 生成。理解 Claude Tag 为什么重要，需要先看清当前 AI 协作工具的一个结构性缺陷。过去两年，AI 编程助手和...

2026-06-24

0

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。