Envoy AI Gateway v0.3 版本带来了智能推理路由(通过 Endpoint Picker 集成)、扩展了供应商生态(支持 Google Vertex AI 生产环境和原生 Anthropic API),并提供了企业级的 OpenInference 跟踪观测能力。
Envoy AI Gateway v0.3 不仅是一个功能更新,更是向智能、生产级 AI 基础设施的根本转变。本次发布解决了企业环境中阻碍 AI 应用的三大关键挑战:
1. 从静态到智能路由
传统负载均衡器把 AI 推理端点当作普通 Web 服务器处理,但 AI 工作负载本质不同。通过 Endpoint Picker 集成,Envoy AI Gateway 现在能基于实时 AI 专用指标(如 KV-cache 使用率、队列深度、LoRA 适配器信息)做出智能路由决策。
带来的好处:
|
好处
|
说明
|
|
降低延迟
|
基于实时 AI 指标选择最优端点
|
|
自动资源优化
|
智能分配推理资源
|
|
零人工干预
|
自动端点管理,无需额外运维工作
|
2. 扩展的供应商生态
从实验性集成走向生产级支持。支持 Google Vertex AI,提供 Gemini 模型的完整流式功能。Anthropic 在 Vertex AI 上从实验转为生产级,支持多工具和可配置 API 版本。
带来的好处:
|
好处
|
说明
|
|
统一的 OpenAI 兼容 API
|
Google、Anthropic、AWS 等多供应商统一接口
|
|
企业级可靠性
|
关键 AI 任务的生产级稳定性
|
|
供应商灵活切换
|
无需架构变更或锁定,轻松切换供应商
|
3. 企业级 AI 观测能力
v0.3 在四个关键领域提供全面的 AI 监控支持。
带来的好处:
|
观测功能
|
说明
|
|
OpenInference 跟踪
|
完整请求生命周期可视化,兼容评估系统
|
|
可配置指标标签
|
基于请求头实现细粒度监控和过滤
|
|
嵌入式指标支持
|
全面跟踪 token 使用,准确归因费用
|
|
增强的 GenAI 指标
|
基于 OpenTelemetry 语义规范,提升准确性
|
v0.3 亮点功能
Endpoint Picker Provider:AI 负载均衡的未来
v0.3 重点集成 Gateway API 推理扩展,实现智能端点选择,理解 AI 工作负载。
apiVersion: aigateway.envoyproxy.io/v1alpha1
kind:AIGatewayRoute
metadata:
name:intelligent-routing
spec:
rules:
-matches:
-headers:
-name:x-ai-eg-model
value:meta-llama/Llama-3.1-8B-Instruct
backendRefs:
-group:inference.networking.x-k8s.io
kind:InferencePool
name:vllm-llama3-pool
这不仅仅是负载均衡,更是能实时适应 AI 负载的智能基础设施。
Google Vertex AI:规模化企业 AI
Google Vertex AI 支持升级为生产级:
-
支持 GCP Vertex AI 的服务账号密钥或工作负载身份联合认证
-
Gemini 模型的完整支持,兼容 OpenAI API 的函数调用、多模态、推理和流式
-
Anthropic 在 Vertex AI 上的完整支持,兼容函数调用、多模态、扩展思考和流式
-
通过 GCP Vertex AI 原生 Anthropic API 支持如 ClaudeCode 等用例
-
企业级稳定性,保障关键部署
这将 Google AI 平台的强大能力纳入统一 AI 基础设施,通过单一、统一的 API 管理。
全面 AI 观测能力
传统监控工具难以满足 AI 需求,v0.3 提供四大观测增强:
|
增强点
|
功能描述
|
带来好处
|
|
OpenInference 跟踪集成
|
完整 LLM 请求跟踪,含时间和 token
|
深入了解 AI 请求生命周期
|
|
|
兼容 Arize Phoenix 等评估工具
|
无缝接入 AI 评估流程
|
|
|
聊天完成请求/响应数据捕获
|
完整审计链,方便调试分析
|
|
可配置指标标签
|
基于 HTTP 请求头自定义标签
|
灵活监控和报警配置
|
|
|
按用户 ID、API 版本等细粒度监控
|
精准过滤与分段
|
|
嵌入式指标支持
|
全面跟踪聊天和嵌入 API 的 token
|
更好成本控制和使用洞察
|
|
|
不同操作类型准确归因
|
精准成本分配和预算
|
|
|
遵循 OpenTelemetry 语义规范
|
标准化观测集成
|
|
增强的 GenAI 指标
|
改进错误处理和属性映射
|
性能监控更可靠
|
|
|
更准确的 token 延迟测量
|
性能分析数据更优
|
|
|
更好的性能分析数据
|
优化洞察提升
|
模型名虚拟化:增强灵活性
新增 modelNameOverride 字段支持强大模型抽象:
backendRefs:
- name: openai-backend
modelNameOverride: "gpt-4"
- name: anthropic-backend
modelNameOverride: "claude-3"
通过抽象模型名,开发者可用统一模型名,网关负责供应商路由,适合 A/B 测试、渐进迁移、防止锁定及多供应商策略。
统一 LLM 与非 LLM API
支持在同一 Gateway 对象上同时绑定标准 HTTPRoute 与 AIGatewayRoute,实现 AI 与非 AI 流量统一路由配置,简化部署和管理。