您现在的位置是:首页 > 文章详情

Envoy AI Gateway v0.3 版本发布

日期:2025-08-27点击:5

Envoy AI Gateway v0.3 版本带来了智能推理路由(通过 Endpoint Picker 集成)、扩展了供应商生态(支持 Google Vertex AI 生产环境和原生 Anthropic API),并提供了企业级的 OpenInference 跟踪观测能力。

Envoy AI Gateway v0.3 不仅是一个功能更新,更是向智能、生产级 AI 基础设施的根本转变。本次发布解决了企业环境中阻碍 AI 应用的三大关键挑战:

1. 从静态到智能路由

传统负载均衡器把 AI 推理端点当作普通 Web 服务器处理,但 AI 工作负载本质不同。通过 Endpoint Picker 集成,Envoy AI Gateway 现在能基于实时 AI 专用指标(如 KV-cache 使用率、队列深度、LoRA 适配器信息)做出智能路由决策。

带来的好处:

好处

说明

降低延迟

基于实时 AI 指标选择最优端点

自动资源优化

智能分配推理资源

零人工干预

自动端点管理,无需额外运维工作

2. 扩展的供应商生态

从实验性集成走向生产级支持。支持 Google Vertex AI,提供 Gemini 模型的完整流式功能。Anthropic 在 Vertex AI 上从实验转为生产级,支持多工具和可配置 API 版本。

带来的好处:

好处

说明

统一的 OpenAI 兼容 API

Google、Anthropic、AWS 等多供应商统一接口

企业级可靠性

关键 AI 任务的生产级稳定性

供应商灵活切换

无需架构变更或锁定,轻松切换供应商

3. 企业级 AI 观测能力

v0.3 在四个关键领域提供全面的 AI 监控支持。

带来的好处:

观测功能

说明

OpenInference 跟踪

完整请求生命周期可视化,兼容评估系统

可配置指标标签

基于请求头实现细粒度监控和过滤

嵌入式指标支持

全面跟踪 token 使用,准确归因费用

增强的 GenAI 指标

基于 OpenTelemetry 语义规范,提升准确性

v0.3 亮点功能

Endpoint Picker Provider:AI 负载均衡的未来

v0.3 重点集成 Gateway API 推理扩展,实现智能端点选择,理解 AI 工作负载。

 apiVersion: aigateway.envoyproxy.io/v1alpha1 kind:AIGatewayRoute metadata: name:intelligent-routing spec: rules:     -matches:         -headers:             -name:x-ai-eg-model               value:meta-llama/Llama-3.1-8B-Instruct       backendRefs:         -group:inference.networking.x-k8s.io           kind:InferencePool           name:vllm-llama3-pool 

这不仅仅是负载均衡,更是能实时适应 AI 负载的智能基础设施。

Google Vertex AI:规模化企业 AI

Google Vertex AI 支持升级为生产级:

  • 支持 GCP Vertex AI 的服务账号密钥或工作负载身份联合认证

  • Gemini 模型的完整支持,兼容 OpenAI API 的函数调用、多模态、推理和流式

  • Anthropic 在 Vertex AI 上的完整支持,兼容函数调用、多模态、扩展思考和流式

  • 通过 GCP Vertex AI 原生 Anthropic API 支持如 ClaudeCode 等用例

  • 企业级稳定性,保障关键部署

这将 Google AI 平台的强大能力纳入统一 AI 基础设施,通过单一、统一的 API 管理。

全面 AI 观测能力

传统监控工具难以满足 AI 需求,v0.3 提供四大观测增强:

增强点

功能描述

带来好处

OpenInference 跟踪集成

完整 LLM 请求跟踪,含时间和 token

深入了解 AI 请求生命周期

 

兼容 Arize Phoenix 等评估工具

无缝接入 AI 评估流程

 

聊天完成请求/响应数据捕获

完整审计链,方便调试分析

可配置指标标签

基于 HTTP 请求头自定义标签

灵活监控和报警配置

 

按用户 ID、API 版本等细粒度监控

精准过滤与分段

嵌入式指标支持

全面跟踪聊天和嵌入 API 的 token

更好成本控制和使用洞察

 

不同操作类型准确归因

精准成本分配和预算

 

遵循 OpenTelemetry 语义规范

标准化观测集成

增强的 GenAI 指标

改进错误处理和属性映射

性能监控更可靠

 

更准确的 token 延迟测量

性能分析数据更优

 

更好的性能分析数据

优化洞察提升

模型名虚拟化:增强灵活性

新增 modelNameOverride 字段支持强大模型抽象:

 backendRefs:   - name: openai-backend     modelNameOverride: "gpt-4"   - name: anthropic-backend     modelNameOverride: "claude-3" 

通过抽象模型名,开发者可用统一模型名,网关负责供应商路由,适合 A/B 测试、渐进迁移、防止锁定及多供应商策略。

统一 LLM 与非 LLM API

支持在同一 Gateway 对象上同时绑定标准 HTTPRoute 与 AIGatewayRoute,实现 AI 与非 AI 流量统一路由配置,简化部署和管理。

原文链接:https://www.oschina.net/news/368666
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章