空间理解模型 SpatialLM 正式发布首份技术报告
近日,空间理解模型SpatialLM正式发布首份技术报告。这一模型此前曾与DeepSeek-V3、通义千问Qwen2.5-Omni一起登上全球最大的开源社区HuggingFace全球趋势榜前三。
作为一款将大语言模型扩展到3D空间理解任务中的模型,SpatialLM能从3D点云输入生成结构化的空间场景描述,这一过程突破了大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,为具身智能等相关领域提供空间理解基础训练框架。
在开源后经过广泛的实际验证,本次技术报告聚焦SpatialLM 1.1升级版本,其不仅包含了详细的消融实验与训练配方,还在点云编码方式、分辨率、用户指定识别类目等维度上实现优化。
多项基准测试数据显示:该模型在任务数据集微调后,在空间布局识别、3D物体检测任务中,均达到了相比与最新专业模型持平或更优的效果。
本次报告重点围绕算法框架和训练数据两方面展开。
在算法架构方面,SpatialLM将大语言模型(LLMs)扩展到3D空间理解任务中,特别在结构化室内建模领域实现了重要突破。
这一技术路线打破了传统任务专属架构(task-specific architecture)的限制,创新性地采用可编辑的文本形式表达场景结构。这一创新设计具有双重技术优势:
一方面发挥了群核科技强大数据集能力,通过持续训练不断优化空间识别精度;另一方面通过接入大语言模型,系统可直接接收并理解自然语言指令,使空间理解模型从简单任务执行工具转变为能够真正理解用户意图的智能系统,从而推进了LLMs在空间理解和推理方向的能力边界。
SpatialLM 模型的网络结构
在训练数据方面,SpatialLM构建了一个全新的包含3D结构化信息的合成点云数据集,打破了真实数据稀缺且难以标注的局限。
该数据集包含超1.2万场景、5.4万个房间的结构化室内点云数据,其规模远超ScanNet(仅包含1,513个场景)等现有数据集。所有数据均源自真实项目的专业设计模型,经严格筛选与解析后形成符合真实世界统计分布的虚拟环境,相较程序化生成的ProcTHOR等数据集具有更高真实性。
项目地址:https://manycore-research.github.io/SpatialLM/
报告详情:https://arxiv.org/abs/2506.07491

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
vivo Pulsar 万亿级消息处理实践 (2) - 从 0 到 1 建设 Pulsar 指标监控链路
作者:vivo 互联网大数据团队- You Shuo 本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇,Pulsar支持上报分区粒度指标,Kafka则没有分区粒度的指标,所以Pulsar的指标量级要远大于Kafka。在Pulsar平台建设初期,提供一个稳定、低时延的监控链路尤为重要。 系列文章: 《vivo Pulsar万亿级消息处理实践-数据发送原理解析和性能调优》 本文是基于Pulsar 2.9.2/kop-2.9.2展开的。 一、背景 作为一种新型消息中间件,Pulsar在架构设计及功能特性等方面要优于Kafka,所以我们引入Pulsar作为我们新一代的消息中间件。在对Pulsar进行调研的时候(比如:性能测试、故障测试等),针对Pulsar提供一套可观测系统是必不可少的。Pulsar的指标是面向云原生的,并且官方提供了Prometheus作为Pulsar指标的采集、存储和查询的方案,但是使用Prometheus采集指标面临以下几个问题: Prometheus自带的时序数据库不是分布式的,它受单机资源的限制; Prometheus 在存储时序数据时消耗大量的内存,...
- 下一篇
MiniMax 上线 AI 音色设计功能
MiniMax 稀宇科技宣布旗下 MiniMax Audio 上线了「Voice Design 音色设计」功能。 音色的维度一般分成音频质量、发声方式、情感基调以及人物画像。该功能根据用户对音色需求的描述,模型自动拆解成音色相关的描述信息,并根据上述的描述来得到一个新的音色编码。同视频模型类似,该功能支持对音色的抽卡,如果不满意,多试几次,很容易得到理想中的专属独一音色,并可存储下来做后续的音频内容创作。 据介绍,通过 Voice Design 音色设计,用户可以通过自然语言来描述自己心中所想的音色,实现对多个维度的精准控制,甚至生成世界上不存在的音色。同时,Voice Design 与 Speech 02 语音模型在链路上相配合,用户在文字转语音中可真正实现了「所需即所得」,以「任意语言 × 任意口音 × 任意音色」,实现可全自定义的无限组合。 此外,Voice Design 解决了语音合成领域的两个挑战:难以精准匹配用户各个细分场景下的多样需求;复刻音色需要用户花费大量时间准备输入素材,并且存在潜在的版权风险。 目前,Voice Design 已上线 MiniMax Audio 国...
相关文章
文章评论
共有0条评论来说两句吧...