使用 eBPF 实现 LLM 推理服务的全栈可观测性
文章内容来自 DeepFlow 在2025年3月15日 KCD 大会上的演讲内容,分享 DeepFlow 在大模型推理服务可观测性方面的实践。 DeepFlow 基于 eBPF 技术,覆盖不同模型、推理引擎与硬件环境,实现 LLM 推理服务的全栈可观测性。今天的分享我将从四个方面展开:首先是自建 LLM 推理服务面临的挑战;其次是如何构建大模型分布式推理服务的可观测性;然后介绍如何利用eBPF技术实现全栈观测;最后分享DeepFlow在这一领域的实践与应用。 一、自建 LLM 推理服务的挑战 首先谈谈自建大模型推理服务的挑战。这个话题在两个月前可能还不算突出,因为当时自建推理服务的情况并不多见。但随着DeepSeek的走红,无论是互联网公司、行业客户还是政企单位,都开始积极搭建自己的模型,这也带动了国产GPU的快速落地。热潮之下,问题也随之浮现。 以往搭建一套推理引擎或服务尚需一定的技术积累,而DeepSeek的出现加速了这一过程,同时也带来了两方面的问题。左侧观点指出当前硬件市场“水很深”,即便是同一种硬件卡(如910B),也存在多种细分型号,其中信息并不完全透明。 如何保障自建LL...