Thinking Machines Lab 提出“模块化流形”方法优化权重矩阵-低调大师

Thinking Machines Lab 提出“模块化流形”方法优化权重矩阵

2025-09-30 108

Thinking Machines 研究员 Jeremy Bernstein 在博客中提出了一种新的神经网络优化思路——模块化流形（Modular Manifolds）。该方法通过在权重矩阵上施加几何约束，并结合特定优化策略，来提升模型训练的稳定性和泛化能力。

这一研究为神经网络训练提供了一种新颖的“几何视角”，或许能成为稳定大模型优化的新路径。

传统训练通常依赖激活标准化或梯度归一化，但很少直接对权重矩阵本身施加约束。Bernstein 指出，如果强制权重矩阵的奇异值保持在合理范围（如约束到 Stiefel 流形），就能避免过度拉伸或压缩输入，从而使训练过程更可控。

他提出的 Manifold Muon 优化器 在 CIFAR-10 上的实验显示，相比 AdamW，它能更好地保持权重的奇异值分布稳定，并带来一定性能提升，但计算开销更高。

进一步的“模块化流形”框架将这一思路推广到网络层级。每个模块不仅定义前向计算，还包含参数的流形约束和范数度量。多个模块组合时，其约束和敏感性界可以系统地合成，从而让整个网络在理论上具备更可控的 Lipschitz 性能。

未来方向包括：在不同层使用不同的流形约束、提升对偶优化的效率、探索非 Riemannian 度量，以及在大规模 GPU 训练中落地高效的流形计算。

推荐阅读：Thinking Machines Lab 发文，揭示 LLM 推理过程不确定性的真相

微信关注我们

原文链接：https://www.oschina.net/news/375407/thinkingmachines-modular-manifolds

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

IDC 发布 2025 全球各区域人工智能市场规模预测占比

IDC发布了《全球各区域人工智能市场规模预测占比，2025》饼图，将全球人工智能市场划分为九大核心区域，具体包括美国、加拿大、西欧、中东欧、亚太地区（不含中国、日本）、中国、日本、中东和非洲、拉美，覆盖了全球主要经济板块与新兴增长市场。从这张图可见，美国以超55%的绝对优势占据全球人工智能市场的最大份额，其在技术研发、企业生态、应用落地等多维度的领先布局，使其成为全球AI产业的“领头羊”。欧洲地区位居第二，其人工智能发展迅猛，预计2029年市场规模约为2,500亿美元，其中西欧市场规模占整个欧洲市场的九成以上。中国排名第三，在全球AI市场中占据重要一席，市场规模占比显著高于日本、亚太其他地区（不含中国、日本）等区域。中国凭借庞大的应用场景与政策推动，成为亚太人工智能市场的核心增长引擎，市场支出占亚太地区总支出的比重过半。 IDC数据显示，2024年全球人工智能IT总投资规模为3159亿美元，并有望在2029年增至12619亿美元，五年复合增长率达31.9%。

2025-09-30

74

万维网创始人蒂姆·伯纳斯-李近日表示，他已经几乎认不出自己当初发明的网络。作为计算机科学家，他呼吁我们改变使用互联网主要信息系统的方式，并警告称，开放且自由的网络必须受到保护、防止被人工智能和私人企业所剥削。自三十多年前创立以来，如今的网络已然发生了巨大变化。在最近为《卫报》撰写的评论文章中，伯纳斯-李警告他所设计的技术正在被滥用，他所期望的“让人们团结起来”的目标偏离了初衷。伯纳斯-李认为，现在的网络又将迎来一个拐点，只要有足够的用户愿意拥抱新的选择，就能避免被“大科技”剥削。伯纳斯-李回顾了网络的起源，他于34岁在欧洲核子研究组织（CERN）担任工程师时首次构想出这一系统。当时他的上司认为这个想法“古怪”，但最终允许他进行探索。网络诞生于互联网和超文本技术的融合。 “我相信，为用户提供一个如此简单的方式导航互联网，能释放全球范围的创造力与协作。如果大家都可以发布任何内容，最终它就会拥有所有内容。”伯纳斯-李表示。 1993年，他终于说服CERN将网络作为公共领域免费开放。通过无偿分享，他确保了该系统能真正成为全球信息网络，通过超文本链接将世界联通在一起。但回望今日的网络，伯纳...

2025-09-30

109

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。