Envoy AI Gateway v0.3 版本发布
Envoy AI Gateway v0.3 版本带来了智能推理路由(通过 Endpoint Picker 集成)、扩展了供应商生态(支持 Google Vertex AI 生产环境和原生 Anthropic API),并提供了企业级的 OpenInference 跟踪观测能力。
Envoy AI Gateway v0.3 不仅是一个功能更新,更是向智能、生产级 AI 基础设施的根本转变。本次发布解决了企业环境中阻碍 AI 应用的三大关键挑战:
1. 从静态到智能路由
传统负载均衡器把 AI 推理端点当作普通 Web 服务器处理,但 AI 工作负载本质不同。通过 Endpoint Picker 集成,Envoy AI Gateway 现在能基于实时 AI 专用指标(如 KV-cache 使用率、队列深度、LoRA 适配器信息)做出智能路由决策。
带来的好处:
|
好处 |
说明 |
|---|---|
|
降低延迟 |
基于实时 AI 指标选择最优端点 |
|
自动资源优化 |
智能分配推理资源 |
|
零人工干预 |
自动端点管理,无需额外运维工作 |
2. 扩展的供应商生态
从实验性集成走向生产级支持。支持 Google Vertex AI,提供 Gemini 模型的完整流式功能。Anthropic 在 Vertex AI 上从实验转为生产级,支持多工具和可配置 API 版本。
带来的好处:
|
好处 |
说明 |
|---|---|
|
统一的 OpenAI 兼容 API |
Google、Anthropic、AWS 等多供应商统一接口 |
|
企业级可靠性 |
关键 AI 任务的生产级稳定性 |
|
供应商灵活切换 |
无需架构变更或锁定,轻松切换供应商 |
3. 企业级 AI 观测能力
v0.3 在四个关键领域提供全面的 AI 监控支持。
带来的好处:
|
观测功能 |
说明 |
|---|---|
|
OpenInference 跟踪 |
完整请求生命周期可视化,兼容评估系统 |
|
可配置指标标签 |
基于请求头实现细粒度监控和过滤 |
|
嵌入式指标支持 |
全面跟踪 token 使用,准确归因费用 |
|
增强的 GenAI 指标 |
基于 OpenTelemetry 语义规范,提升准确性 |
v0.3 亮点功能
Endpoint Picker Provider:AI 负载均衡的未来
v0.3 重点集成 Gateway API 推理扩展,实现智能端点选择,理解 AI 工作负载。
apiVersion: aigateway.envoyproxy.io/v1alpha1
kind:AIGatewayRoute
metadata:
name:intelligent-routing
spec:
rules:
-matches:
-headers:
-name:x-ai-eg-model
value:meta-llama/Llama-3.1-8B-Instruct
backendRefs:
-group:inference.networking.x-k8s.io
kind:InferencePool
name:vllm-llama3-pool
这不仅仅是负载均衡,更是能实时适应 AI 负载的智能基础设施。
Google Vertex AI:规模化企业 AI
Google Vertex AI 支持升级为生产级:
-
支持 GCP Vertex AI 的服务账号密钥或工作负载身份联合认证
-
Gemini 模型的完整支持,兼容 OpenAI API 的函数调用、多模态、推理和流式
-
Anthropic 在 Vertex AI 上的完整支持,兼容函数调用、多模态、扩展思考和流式
-
通过 GCP Vertex AI 原生 Anthropic API 支持如 ClaudeCode 等用例
-
企业级稳定性,保障关键部署
这将 Google AI 平台的强大能力纳入统一 AI 基础设施,通过单一、统一的 API 管理。
全面 AI 观测能力
传统监控工具难以满足 AI 需求,v0.3 提供四大观测增强:
|
增强点 |
功能描述 |
带来好处 |
|---|---|---|
|
OpenInference 跟踪集成 |
完整 LLM 请求跟踪,含时间和 token |
深入了解 AI 请求生命周期 |
|
|
兼容 Arize Phoenix 等评估工具 |
无缝接入 AI 评估流程 |
|
|
聊天完成请求/响应数据捕获 |
完整审计链,方便调试分析 |
|
可配置指标标签 |
基于 HTTP 请求头自定义标签 |
灵活监控和报警配置 |
|
|
按用户 ID、API 版本等细粒度监控 |
精准过滤与分段 |
|
嵌入式指标支持 |
全面跟踪聊天和嵌入 API 的 token |
更好成本控制和使用洞察 |
|
|
不同操作类型准确归因 |
精准成本分配和预算 |
|
|
遵循 OpenTelemetry 语义规范 |
标准化观测集成 |
|
增强的 GenAI 指标 |
改进错误处理和属性映射 |
性能监控更可靠 |
|
|
更准确的 token 延迟测量 |
性能分析数据更优 |
|
|
更好的性能分析数据 |
优化洞察提升 |
模型名虚拟化:增强灵活性
新增 modelNameOverride 字段支持强大模型抽象:
backendRefs:
- name: openai-backend
modelNameOverride: "gpt-4"
- name: anthropic-backend
modelNameOverride: "claude-3"
通过抽象模型名,开发者可用统一模型名,网关负责供应商路由,适合 A/B 测试、渐进迁移、防止锁定及多供应商策略。
统一 LLM 与非 LLM API
支持在同一 Gateway 对象上同时绑定标准 HTTPRoute 与 AIGatewayRoute,实现 AI 与非 AI 流量统一路由配置,简化部署和管理。