逻辑智能开源语音大模型框架 LLaSO
北京深度逻辑智能科技有限公司宣布于近日推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。
“旨在为整个社区提供一个统一、透明且可复现的基础设施,其贡献是 “全家桶” 式的,包含了一整套开源的数据、基准和模型,希望以此加速 LSLM 领域的社区驱动式创新。”
LLaSO 框架包括三个核心开源组件:
LLaSO-Align:大规模语音 - 文本对齐数据集
- 数据规模:1200 万语音 - 文本对齐样本
- 数据来源:聚合对话、有声书、多口音语音等多样化来源
- 技术目标:通过自动语音识别(ASR)任务建立语音表示与文本语义空间的精确对齐
- 质量控制:采用多重过滤机制确保数据质量和说话人多样性
LLaSO-Instruct:多任务指令微调数据集
- 数据规模:1350 万多任务指令样本
- 任务覆盖:涵盖语言学、语义学、副语言学三大类共 20 项任务
- 语言学任务:ASR、翻译、总结等基础语言理解
- 语义学任务:问答、推理、内容分析等高级认知
- 副语言学任务:情感识别、口音检测、说话人分析等
-
模态支持:系统性支持三种交互配置
- 文本指令 + 音频输入(Text-Audio)
- 音频指令 + 文本输入(Audio-Text)
- 纯音频指令与输入(Audio-Audio)
LLaSO-Eval:标准化评估基准
- 样本规模:15,044 个测试样本
- 数据隔离:与训练集严格分离,确保评估公平性
- 评估维度:覆盖所有 20 项任务的 comprehensive evaluation
- 可复现性:提供统一评估协议和自动化评估工具
为验证框架有效性,逻辑智能团队基于 LLaSO 数据训练了 38 亿参数的参考模型 LLaSO-Base。实验结果表明,LLaSO-Base 以 0.72 的得分在所有参评模型中排名首位,相较于排名第二的 Kimi-Audio (0.65) 和第三位的 Qwen2-Audio (0.57) 展现出明显的性能优势。该结果充分验证了 LLaSO-Base 模型的整体效能。
进一步分析发现,采用多任务训练范式的模型(如 LLaSO-Base)在综合评测中的表现明显优于专门针对特定任务(如 AQA)进行定向优化的模型(例如 Llama-Omni 和 Mini-Omni)。这一现象印证了多样化任务训练策略在提升模型泛化能力方面的重要价值。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
豆包超越 DeepSeek,夺 8 月中国原生 AI App 月活第一
QuestMobile最新发布的2025年8月数据显示,豆包月活跃用户规模超越DeepSeek,登顶中国原生AI App月活榜首。 2025年8月,豆包月活跃用户规模达15742万,环比增长6.6%,从第二名升至第一名。曾居首位的DeepSeek,8月用户规模虽仍处亿级,但因-4.0%的环比增速,排名下滑1位。 其他选手表现各异,腾讯元宝以22.4%的高环比增速,稳坐第三,月活规模处于1000万-1亿量级。
-
下一篇
腾讯跨端开源框架 Kuikly 适配“液态玻璃”
Kuikly 是基于Kotlin Multiplatform的UI与逻辑全面跨端综合解决方案,由腾讯大前端领域Oteam(公司级)推出,旨在提供一套一码多端、极致易用、动态灵活的全平台高性能开发框架。 目前支持如下平台:Android、iOS、鸿蒙、Web(beta)和小程序(beta)。 Kuikly 团队介绍称,项目已完成对“液态玻璃”的首阶段适配,并对外开源发布。 为了适配“液态玻璃”,Kuikly没有引入新的独立组件,而是为现有组件提供了简洁的视图属性扩展。例如,开发者只需通过一行glassEffectIOS()代码,即可为任意容器视图启用液态玻璃效果。 View { attr { glassEffectIOS() // iOS平台将自动添加液态玻璃效果 } // ... 其他子视图 } 团队表示,Kuikly的适配工作并非简单的UI改造,而是充分利用原生提供的基础能力,在框架渲染层和DSL驱动层两方面进行扩展,旨在为开发者提供一套便捷、低成本的适配方案。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS关闭SELinux安全模块
- SpringBoot2全家桶,快速入门学习开发网站教程
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8编译安装MySQL8.0.19
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL数据库在高并发下的优化方案