LeCun 新提案:用 CV 思路重塑语言模型

在当今的人工智能领域,Yann LeCun 提出的 JEPA(联合嵌入预测架构)正在重新定义大语言模型(LLM)的训练方式。这位诺贝尔奖得主不是在批评现有的 LLM,而是亲自出手进行改造。传统的 LLM 训练方法主要依赖于输入空间中的重构与生成,如预测下一个单词,这种方法在视觉领域已被证明存在局限性。

LeCun 和他的团队认为,可以借鉴计算机视觉(CV)领域的先进技术来提升语言模型的表现。JEPA 的核心思想是通过在抽象表征空间中预测缺失的特征,以高效地学习世界知识。Meta AI 团队已经在图像和视频处理上成功应用了 JEPA,而现在,他们希望将这一理念扩展到语言模型领域。

为了填补这个空白,研究人员 Hai Huang、Yann LeCun 和 Randall Balestriero 共同提出了 LLM-JEPA。这一新模型将文本和代码视为同一概念的不同视角,首次成功将 JEPA 的自监督学习架构应用于 LLM。通过结合 JEPA 在嵌入空间学习的优势,LLM-JEPA 不仅保留了 LLM 强大的生成能力,还在性能和鲁棒性上实现了双丰收。

实验证明,LLM-JEPA 在多个主流模型(如 Llama3、OpenELM、Gemma2等)和多样化的数据集(如 GSM8K、Spider 等)上表现出色,显著超越了传统 LLM 训练目标。此外,它在防止过拟合方面显示出了强大的鲁棒性,为语言模型的未来发展提供了新的方向。

尽管目前的研究主要集中在微调阶段,但初步的预训练结果显示出巨大的潜力。团队计划在未来的工作中进一步探索 LLM-JEPA 在预训练过程中的应用,期待为语言模型的性能提升注入新的动力。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/373887

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。