美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
语音大语言模型(Speech LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱 "听不懂" 语音,车载助手 "说" 得像机器人,实时翻译延迟卡半秒 ------深究根源,全在 "语音 Token 化":作为拆分语音为 Speech LLM "离散单元" 的关键步骤,传统方案始终没平衡好 ------ 要么缺语义、要么丢声学、要么延迟高,刚好卡了 Speech LLM 落地的 "死结"。 针对 Speech LLM 落地中的音频处理难题,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的 Token 序列,实现高效离散化,再通过解码模块重构高质量音频,为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略,LongCat-Audio-Codec 在语义建模、声学重建、流式合成三大维度实...