您现在的位置是：首页 > 文章详情

Envoy AI Gateway v0.3 版本发布

日期：2025-08-27点击：81收藏

Envoy AI Gateway v0.3 版本带来了智能推理路由（通过 Endpoint Picker 集成）、扩展了供应商生态（支持 Google Vertex AI 生产环境和原生 Anthropic API），并提供了企业级的 OpenInference 跟踪观测能力。

Envoy AI Gateway v0.3 不仅是一个功能更新，更是向智能、生产级 AI 基础设施的根本转变。本次发布解决了企业环境中阻碍 AI 应用的三大关键挑战：

1. 从静态到智能路由

传统负载均衡器把 AI 推理端点当作普通 Web 服务器处理，但 AI 工作负载本质不同。通过 Endpoint Picker 集成，Envoy AI Gateway 现在能基于实时 AI 专用指标（如 KV-cache 使用率、队列深度、LoRA 适配器信息）做出智能路由决策。

带来的好处：

好处	说明
降低延迟	基于实时 AI 指标选择最优端点
自动资源优化	智能分配推理资源
零人工干预	自动端点管理，无需额外运维工作

2. 扩展的供应商生态

从实验性集成走向生产级支持。支持 Google Vertex AI，提供 Gemini 模型的完整流式功能。Anthropic 在 Vertex AI 上从实验转为生产级，支持多工具和可配置 API 版本。

带来的好处：

好处	说明
统一的 OpenAI 兼容 API	Google、Anthropic、AWS 等多供应商统一接口
企业级可靠性	关键 AI 任务的生产级稳定性
供应商灵活切换	无需架构变更或锁定，轻松切换供应商

3. 企业级 AI 观测能力

v0.3 在四个关键领域提供全面的 AI 监控支持。

带来的好处：

观测功能	说明
OpenInference 跟踪	完整请求生命周期可视化，兼容评估系统
可配置指标标签	基于请求头实现细粒度监控和过滤
嵌入式指标支持	全面跟踪 token 使用，准确归因费用
增强的 GenAI 指标	基于 OpenTelemetry 语义规范，提升准确性

v0.3 亮点功能

Endpoint Picker Provider：AI 负载均衡的未来

v0.3 重点集成 Gateway API 推理扩展，实现智能端点选择，理解 AI 工作负载。

apiVersion: aigateway.envoyproxy.io/v1alpha1
kind:AIGatewayRoute
metadata:
name:intelligent-routing
spec:
rules:
    -matches:
        -headers:
            -name:x-ai-eg-model
              value:meta-llama/Llama-3.1-8B-Instruct
      backendRefs:
        -group:inference.networking.x-k8s.io
          kind:InferencePool
          name:vllm-llama3-pool

这不仅仅是负载均衡，更是能实时适应 AI 负载的智能基础设施。

Google Vertex AI：规模化企业 AI

Google Vertex AI 支持升级为生产级：

支持 GCP Vertex AI 的服务账号密钥或工作负载身份联合认证
Gemini 模型的完整支持，兼容 OpenAI API 的函数调用、多模态、推理和流式
Anthropic 在 Vertex AI 上的完整支持，兼容函数调用、多模态、扩展思考和流式
通过 GCP Vertex AI 原生 Anthropic API 支持如 ClaudeCode 等用例
企业级稳定性，保障关键部署

这将 Google AI 平台的强大能力纳入统一 AI 基础设施，通过单一、统一的 API 管理。

全面 AI 观测能力

传统监控工具难以满足 AI 需求，v0.3 提供四大观测增强：

增强点	功能描述	带来好处
OpenInference 跟踪集成	完整 LLM 请求跟踪，含时间和 token	深入了解 AI 请求生命周期
	兼容 Arize Phoenix 等评估工具	无缝接入 AI 评估流程
	聊天完成请求/响应数据捕获	完整审计链，方便调试分析
可配置指标标签	基于 HTTP 请求头自定义标签	灵活监控和报警配置
	按用户 ID、API 版本等细粒度监控	精准过滤与分段
嵌入式指标支持	全面跟踪聊天和嵌入 API 的 token	更好成本控制和使用洞察
	不同操作类型准确归因	精准成本分配和预算
	遵循 OpenTelemetry 语义规范	标准化观测集成
增强的 GenAI 指标	改进错误处理和属性映射	性能监控更可靠
	更准确的 token 延迟测量	性能分析数据更优
	更好的性能分析数据	优化洞察提升

模型名虚拟化：增强灵活性

新增 modelNameOverride 字段支持强大模型抽象：

backendRefs:
  - name: openai-backend
    modelNameOverride: "gpt-4"
  - name: anthropic-backend
    modelNameOverride: "claude-3"

通过抽象模型名，开发者可用统一模型名，网关负责供应商路由，适合 A/B 测试、渐进迁移、防止锁定及多供应商策略。

统一 LLM 与非 LLM API

支持在同一 Gateway 对象上同时绑定标准 HTTPRoute 与 AIGatewayRoute，实现 AI 与非 AI 流量统一路由配置，简化部署和管理。

原文链接：https://www.oschina.net/news/368666

关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有，本站原创内容转载请注明来源。

Java分享

Envoy AI Gateway v0.3 版本发布

1. 从静态到智能路由

2. 扩展的供应商生态

3. 企业级 AI 观测能力

v0.3 亮点功能

Endpoint Picker Provider：AI 负载均衡的未来

Google Vertex AI：规模化企业 AI

全面 AI 观测能力

模型名虚拟化：增强灵活性

统一 LLM 与非 LLM API

JPROCMS 1.5.2 发布，开源免费 Java CMS 网站内容管理系统，支持 SaaS

🔥EditorJumper-IDE 跳转神器 1.4.0 发布，支持 Qoder

相关文章

文章评论

文章二维码

点击排行

推荐阅读

最新文章