您现在的位置是:首页 > 文章详情

逻辑智能开源语音大模型框架 LLaSO

日期:2025-09-16点击:17

北京深度逻辑智能科技有限公司宣布于近日推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。

旨在为整个社区提供一个统一、透明且可复现的基础设施,其贡献是 “全家桶” 式的,包含了一整套开源的数据、基准和模型,希望以此加速 LSLM 领域的社区驱动式创新。

LLaSO 框架包括三个核心开源组件:

LLaSO-Align:大规模语音 - 文本对齐数据集

  • 数据规模:1200 万语音 - 文本对齐样本
  • 数据来源:聚合对话、有声书、多口音语音等多样化来源
  • 技术目标:通过自动语音识别(ASR)任务建立语音表示与文本语义空间的精确对齐
  • 质量控制:采用多重过滤机制确保数据质量和说话人多样性

LLaSO-Instruct:多任务指令微调数据集

  • 数据规模:1350 万多任务指令样本
  • 任务覆盖:涵盖语言学、语义学、副语言学三大类共 20 项任务 
    • 语言学任务:ASR、翻译、总结等基础语言理解
    • 语义学任务:问答、推理、内容分析等高级认知
    • 副语言学任务:情感识别、口音检测、说话人分析等
  • 态支:系统性支持三种交互配置 

    • 文本指令 + 音频输入(Text-Audio)
    • 音频指令 + 文本输入(Audio-Text)
    • 纯音频指令与输入(Audio-Audio)

LLaSO-Eval:标准化评估基准

  • 样本规模:15,044 个测试样本
  • 数据隔离:与训练集严格分离,确保评估公平性
  • 估维:覆盖所有 20 项任务的 comprehensive evaluation
  • 可复现性:提供统一评估协议和自动化评估工具

为验证框架有效性,逻辑智能团队基于 LLaSO 数据训练了 38 亿参数的参考模型 LLaSO-Base。实验结果表明,LLaSO-Base 以 0.72 的得分在所有参评模型中排名首位,相较于排名第二的 Kimi-Audio (0.65) 和第三位的 Qwen2-Audio (0.57) 展现出明显的性能优势。该结果充分验证了 LLaSO-Base 模型的整体效能。

进一步分析发现,采用多任务训练范式的模型(如 LLaSO-Base)在综合评测中的表现明显优于专门针对特定任务(如 AQA)进行定向优化的模型(例如 Llama-Omni 和 Mini-Omni)。这一现象印证了多样化任务训练策略在提升模型泛化能力方面的重要价值。

原文链接:https://www.oschina.net/news/372521
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章