逻辑智能开源语音大模型框架 LLaSO-低调大师

逻辑智能开源语音大模型框架 LLaSO

2025-09-16 202

北京深度逻辑智能科技有限公司宣布于近日推出了 LLaSO—— 首个完全开放、端到端的语音语言模型研究框架。

“旨在为整个社区提供一个统一、透明且可复现的基础设施，其贡献是 “全家桶” 式的，包含了一整套开源的数据、基准和模型，希望以此加速 LSLM 领域的社区驱动式创新。”

LLaSO 框架包括三个核心开源组件：

LLaSO-Align：大规模语音 - 文本对齐数据集

数据规模：1200 万语音 - 文本对齐样本
数据来源：聚合对话、有声书、多口音语音等多样化来源
技术目标：通过自动语音识别（ASR）任务建立语音表示与文本语义空间的精确对齐
质量控制：采用多重过滤机制确保数据质量和说话人多样性

LLaSO-Instruct：多任务指令微调数据集

数据规模：1350 万多任务指令样本
任务覆盖：涵盖语言学、语义学、副语言学三大类共 20 项任务
- 语言学任务：ASR、翻译、总结等基础语言理解
- 语义学任务：问答、推理、内容分析等高级认知
- 副语言学任务：情感识别、口音检测、说话人分析等
模态支持：系统性支持三种交互配置
- 文本指令 + 音频输入（Text-Audio）
- 音频指令 + 文本输入（Audio-Text）
- 纯音频指令与输入（Audio-Audio）

LLaSO-Eval：标准化评估基准

样本规模：15,044 个测试样本
数据隔离：与训练集严格分离，确保评估公平性
评估维度：覆盖所有 20 项任务的 comprehensive evaluation
可复现性：提供统一评估协议和自动化评估工具

为验证框架有效性，逻辑智能团队基于 LLaSO 数据训练了 38 亿参数的参考模型 LLaSO-Base。实验结果表明，LLaSO-Base 以 0.72 的得分在所有参评模型中排名首位，相较于排名第二的 Kimi-Audio (0.65) 和第三位的 Qwen2-Audio (0.57) 展现出明显的性能优势。该结果充分验证了 LLaSO-Base 模型的整体效能。

进一步分析发现，采用多任务训练范式的模型（如 LLaSO-Base）在综合评测中的表现明显优于专门针对特定任务（如 AQA）进行定向优化的模型（例如 Llama-Omni 和 Mini-Omni）。这一现象印证了多样化任务训练策略在提升模型泛化能力方面的重要价值。

微信关注我们

原文链接：https://www.oschina.net/news/372521

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

豆包超越 DeepSeek，夺 8 月中国原生 AI App 月活第一

QuestMobile最新发布的2025年8月数据显示，豆包月活跃用户规模超越DeepSeek，登顶中国原生AI App月活榜首。 2025年8月，豆包月活跃用户规模达15742万，环比增长6.6%，从第二名升至第一名。曾居首位的DeepSeek，8月用户规模虽仍处亿级，但因-4.0%的环比增速，排名下滑1位。其他选手表现各异，腾讯元宝以22.4%的高环比增速，稳坐第三，月活规模处于1000万-1亿量级。

2025-09-16

149

Kuikly 是基于Kotlin Multiplatform的UI与逻辑全面跨端综合解决方案，由腾讯大前端领域Oteam（公司级）推出，旨在提供一套一码多端、极致易用、动态灵活的全平台高性能开发框架。目前支持如下平台：Android、iOS、鸿蒙、Web（beta）和小程序（beta）。 Kuikly 团队介绍称，项目已完成对“液态玻璃”的首阶段适配，并对外开源发布。为了适配“液态玻璃”，Kuikly没有引入新的独立组件，而是为现有组件提供了简洁的视图属性扩展。例如，开发者只需通过一行glassEffectIOS()代码，即可为任意容器视图启用液态玻璃效果。 View { attr { glassEffectIOS() // iOS平台将自动添加液态玻璃效果 } // ... 其他子视图 } 团队表示，Kuikly的适配工作并非简单的UI改造，而是充分利用原生提供的基础能力，在框架渲染层和DSL驱动层两方面进行扩展，旨在为开发者提供一套便捷、低成本的适配方案。

2025-09-16

148

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。