日本 Sakana AI 发布自适应 LLMs：Transformer²-低调大师

日本 Sakana AI 发布自适应 LLMs：Transformer²

2025-01-17 349

日本 Sakana AI 发布 Transformer²，这是一种自适应 LLMs，该方法提出了一种机器学习系统，能够动态调整其权重以适应各种任务。

Transformer² 的名称反映了其两步过程：首先，模型分析输入任务以理解其需求，然后应用任务特定的调整以生成最佳结果。通过选择性调整模型权重的关键组件，其框架使 LLMs 能够实时动态适应新任务。

Transformer² 在多种任务（如数学、编码、推理和视觉理解）上展示了显著进步，在效率和任务特定性能上超越了 LoRA 等传统静态方法，同时所需参数大大减少。

Transformer² 通过两步流程重新定义了这些强大模型处理多样化任务的方式。其核心在于能够动态调整权重矩阵的关键组件。在训练阶段，引入了奇异值微调（SVF），这是一种利用强化学习（RL）来增强/抑制来自不同“大脑”组件信号的方法，以适应各种下游任务。在推理阶段，采用三种不同的策略来检测任务身份，并相应调整模型的权重。

Sakana AI 表示其研究为未来提供了一瞥，届时 AI 模型将不再静止不变。这些系统将在测试时动态调整其计算能力，以适应所遇任务的复杂性，体现能够持续变化和终身学习的活体智能。

该公司相信，自适应性不仅将变革 AI 研究，还将重新定义我们与智能系统的互动方式，创造一个适应性与智能并驾齐驱的世界。

论文：https://arxiv.org/abs/2501.06252
GitHub：https://github.com/SakanaAI/self-adaptive-llms
官方博客：https://sakana.ai/transformer-squared/

微信关注我们

原文链接：https://www.oschina.net/news/330159/sakana-ai-transformer-squared

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

年底了来点鸡汤 —— 电子书《自洽的程序员》

“这不是一本程序员的技术书籍，整本书不会提及任何一个技术词汇，这也不是一本教你如何规划职业生涯，如何在职场走个更远的书，虽然我相信大部分内容确实有助于在职场的发展。这本书的真正用意是想解决工作过程中碰到的焦虑、倦怠、迷茫、抑郁等情绪，聚焦于解决具体问题，通过改变认知将我们从负面情绪的泥淖中走出来，做到更坦然，真诚的面对自己的内心，成为一个自洽的程序员。” 在线阅读：self-consistent-coder.readthedocs.io/zh-cn/latest/

2025-01-17

257

1 月 16 日，有网友在社交平台称，在当日 14:40 至 14:45 时间段内通过支付宝转账、信用卡支付、缴费等操作时，订单支付页面均被提示「政府补贴」，可减免 20%。此后有业内人士指出，该「乌龙」优惠疑似支付宝在测试「国补」功能时，误操作将测试环境部署到正常环境中，导致用户线上支付可直接享受减免。随后支付宝于 1 月 17 日凌晨发布公告称，确认了该「乌龙」优惠为支付宝自身失误，并表示针对针对已经发出的营销优惠金，支付宝不会向用户追款。支付宝也给出了失误细节，是其人员在支付宝某个常规营销活动后台配错了营销模板，把优惠额度和优惠金类型都写错了。同时支付宝提醒，其官方没有发送任何资金追回短信，若收到相关信息，请勿点击以免上当受骗。

2025-01-17

269

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。