逻辑智能开源语音大模型框架 LLaSO
北京深度逻辑智能科技有限公司宣布于近日推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。 “旨在为整个社区提供一个统一、透明且可复现的基础设施,其贡献是 “全家桶” 式的,包含了一整套开源的数据、基准和模型,希望以此加速 LSLM 领域的社区驱动式创新。” LLaSO 框架包括三个核心开源组件: LLaSO-Align:大规模语音 - 文本对齐数据集 数据规模:1200 万语音 - 文本对齐样本 数据来源:聚合对话、有声书、多口音语音等多样化来源 技术目标:通过自动语音识别(ASR)任务建立语音表示与文本语义空间的精确对齐 质量控制:采用多重过滤机制确保数据质量和说话人多样性 LLaSO-Instruct:多任务指令微调数据集 数据规模:1350 万多任务指令样本 任务覆盖:涵盖语言学、语义学、副语言学三大类共 20 项任务 语言学任务:ASR、翻译、总结等基础语言理解 语义学任务:问答、推理、内容分析等高级认知 副语言学任务:情感识别、口音检测、说话人分析等 模态支持:系统性支持三种交互配置 文本指令 + 音频输入(Text-Audio) 音频指令 + 文本输入(A...

