阿里通义实验室发布 OmniAudio，可从 360° 视频生成空间音频-低调大师

阿里通义实验室发布 OmniAudio，可从 360° 视频生成空间音频

2025-05-30 337

阿里通义实验室语音团队宣布了一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio，它能够直接从 360° 视频生成空间音频，为虚拟现实和沉浸式娱乐带来了全新的可能性。

为了解决「如何利用全景视频生成与之匹配的空间音频」这一问题，通义实验室语音团队提出了 360V2SA（360-degree Video to Spatial Audio）任务，旨在直接从 360° 视频生成 FOA（First-order Ambisonics）音频。

据悉，FOA 是一种标准的 3D 空间音频格式，能够捕捉声音的方向性，实现真实的 3D 音频再现。

受限于现有的配对 360° 视频和空间音频数据极为稀缺，通义团队还为此精心设计并构建了 Sphere360 数据集。该数据集包含大量高质量的 360° 视频和相应的 FOA 空间音频。这是一个包含超过 10.3 万个真实世界视频片段的数据集，涵盖 288 种音频事件，总时长达到 288 小时。

另外，OmniAudio 的训练方法分为了「自监督的 coarse-to-fine 流匹配预训练」以及「基于双分支视频表示的有监督微调」两个阶段。

目前，OmniAudio 已上架 GitHub 并同步公布了代码、数据开源仓库，以及相关技术论文。

项目主页：https://omniaudio-360v2sa.github.io/
代码和数据开源仓库：https://github.com/liuhuadai/OmniAudio
论文地址：https://arxiv.org/abs/2504.14906

微信关注我们

原文链接：https://www.oschina.net/news/352704

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

小米多模态大模型 Xiaomi MiMo-VL 开源

小米公司研发的MiMo-VL多模态模型近日接过MiMo-7B的接力棒，在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B，在GUI Grounding任务上的表现更是可与专用模型相媲美，为Agent时代的到来做好了准备。 MiMo-VL-7B在多模态推理任务上成绩斐然，尽管参数规模仅为7B，却在奥林匹克竞赛（OlympiadBench）和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，同时也超越了闭源模型GPT-4o。在内部大模型竞技场评估真实用户体验时，MiMo-VL-7B超越GPT-4o，成为开源模型中的佼佼者。在实际应用场景中，该模型在复杂图片推理和问答上表现卓越，在长达10多步的GUI操作上也展现出不错的潜力，甚至能够帮助用户将小米SU7加购至心愿单。 MiMo-VL-7B全面的视觉感知能力得益于高质量的预训练数据以及创新的混合在线强化学习算法（MORL）。在多阶段预训练过程中，小米收...

2025-05-30

427

Ubuntu 团队宣布其发版机制引入一项新变化：从 5 月份开始，他们将会每月发布测试版 Ubuntu 快照 (Monthly Snapshots)。这一机制并非取代现有的每六个月一次的常规发布，而是通过现代发布工程实践，在保持稳定性的同时优化测试与构建流程。月度快照作为开发预览，被定义为“精心策划的可测试里程碑”，有助于减少人为干预并增加自动化测试，从而提升发布透明度与效率。Canonical 工程师 Jon Seager 表示，该机制将帮助 Ubuntu 在保留核心优势的基础上，更好地应对软件开发中的新挑战。首个快照以“Ubuntu 25.10 Snapshot 1”形式命名，已于 5 月 29 日发布，并在后续几个月持续更新，最终于 10 月 9 日推出稳定版本。这标志着 Ubuntu 在灵活性与稳定性之间迈出了重要一步。

2025-05-30

336

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。