Thinking Machines Lab 提出“模块化流形”方法优化权重矩阵
Thinking Machines 研究员 Jeremy Bernstein 在博客中提出了一种新的神经网络优化思路——模块化流形(Modular Manifolds)。该方法通过在权重矩阵上施加几何约束,并结合特定优化策略,来提升模型训练的稳定性和泛化能力。
这一研究为神经网络训练提供了一种新颖的“几何视角”,或许能成为稳定大模型优化的新路径。
传统训练通常依赖激活标准化或梯度归一化,但很少直接对权重矩阵本身施加约束。Bernstein 指出,如果强制权重矩阵的奇异值保持在合理范围(如约束到 Stiefel 流形),就能避免过度拉伸或压缩输入,从而使训练过程更可控。
他提出的 Manifold Muon 优化器 在 CIFAR-10 上的实验显示,相比 AdamW,它能更好地保持权重的奇异值分布稳定,并带来一定性能提升,但计算开销更高。
进一步的“模块化流形”框架将这一思路推广到网络层级。每个模块不仅定义前向计算,还包含参数的流形约束和范数度量。多个模块组合时,其约束和敏感性界可以系统地合成,从而让整个网络在理论上具备更可控的 Lipschitz 性能。
未来方向包括:在不同层使用不同的流形约束、提升对偶优化的效率、探索非 Riemannian 度量,以及在大规模 GPU 训练中落地高效的流形计算。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
IDC 发布 2025 全球各区域人工智能市场规模预测占比
IDC发布了《全球各区域人工智能市场规模预测占比,2025》饼图,将全球人工智能市场划分为九大核心区域,具体包括美国、加拿大、西欧、中东欧、亚太地区(不含中国、日本)、中国、日本、中东和非洲、拉美,覆盖了全球主要经济板块与新兴增长市场。 从这张图可见,美国以超55%的绝对优势占据全球人工智能市场的最大份额,其在技术研发、企业生态、应用落地等多维度的领先布局,使其成为全球AI产业的“领头羊”。 欧洲地区位居第二,其人工智能发展迅猛,预计2029年市场规模约为2,500亿美元,其中西欧市场规模占整个欧洲市场的九成以上。 中国排名第三,在全球AI市场中占据重要一席,市场规模占比显著高于日本、亚太其他地区(不含中国、日本)等区域。 中国凭借庞大的应用场景与政策推动,成为亚太人工智能市场的核心增长引擎,市场支出占亚太地区总支出的比重过半。 IDC数据显示,2024年全球人工智能IT总投资规模为3159亿美元,并有望在2029年增至12619亿美元,五年复合增长率达31.9%。
-
下一篇
万维网发明者倡导推广“去中心化网络”,应对 AI 剥削和广告驱动的滥用
万维网创始人蒂姆·伯纳斯-李近日表示,他已经几乎认不出自己当初发明的网络。作为计算机科学家,他呼吁我们改变使用互联网主要信息系统的方式,并警告称,开放且自由的网络必须受到保护、防止被人工智能和私人企业所剥削。 自三十多年前创立以来,如今的网络已然发生了巨大变化。在最近为《卫报》撰写的评论文章中,伯纳斯-李警告他所设计的技术正在被滥用,他所期望的“让人们团结起来”的目标偏离了初衷。伯纳斯-李认为,现在的网络又将迎来一个拐点,只要有足够的用户愿意拥抱新的选择,就能避免被“大科技”剥削。 伯纳斯-李回顾了网络的起源,他于34岁在欧洲核子研究组织(CERN)担任工程师时首次构想出这一系统。当时他的上司认为这个想法“古怪”,但最终允许他进行探索。网络诞生于互联网和超文本技术的融合。 “我相信,为用户提供一个如此简单的方式导航互联网,能释放全球范围的创造力与协作。如果大家都可以发布任何内容,最终它就会拥有所有内容。”伯纳斯-李表示。 1993年,他终于说服CERN将网络作为公共领域免费开放。通过无偿分享,他确保了该系统能真正成为全球信息网络,通过超文本链接将世界联通在一起。 但回望今日的网络,伯纳...
相关文章
文章评论
共有0条评论来说两句吧...