开源模型逆袭:Databricks TAO 技术微调 Llama 超越 GPT-4o
数据智能公司 Databricks 近日推出了一种全新的大语言模型微调方法 ——TAO(Test-time Adaptive Optimization)。通过运用无标注数据和强化学习,TAO 不仅在降低企业成本方面表现出色,更是在一系列基准测试中取得了令人瞩目的成绩。
根据科技媒体 NeoWin 的报道,TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中,展现出了优于传统标注微调方法的性能,甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品竞争中的又一次重大突破。
TAO 方法的核心在于其独特的 “测试时计算” 理念,能够自动探索任务的多样性,同时结合强化学习来优化模型,从而避免了传统微调所需的人工标注成本。在多项企业基准测试中,TAO 微调的 Llama 模型成绩斐然:
- 在 FinanceBench 基准测试中,该模型在7200道 SEC 文档问答中取得了85.1的高分,超过了传统标注微调(81.1)和 OpenAI 的 o3-mini(82.2)的成绩。
- 在 BIRD-SQL 测试中,TAO 微调的 Llama 模型得分为56.1,接近 GPT-4o 的58.1,远超传统标注微调(54.9)。
- 在 DB Enterprise Arena 中,TAO 模型得分为47.2,虽然略低于 GPT-4o 的53.8,但仍然显示了强劲的竞争力。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
AI 产品榜最新统计数据:夸克成国内唯一月活破亿 AI 应用
AI产品榜最新统计数据显示,2025年2月份中国AI应用中仅夸克MAU破亿。AI产品榜认为,中国互联网巨头即将拉开AI 超级应用争夺战,而阿里夸克凭借MAU优势取得领先身位。 AI产品榜指出,以阿里、腾讯、字节为代表的中国互联网巨头纷纷将战略重心转向 AI,他们将重燃战火,争夺 AI 时代的超级应用。 3月13日,阿里巴巴宣布推出AI旗舰应用——新夸克。全新夸克基于阿里通义领先的推理及多模态大模型,宣布告别传统搜索,升级为一个All in One的“AI超级框”,满足用户工作、学习、生活的各类AI需求。 夸克用户规模上的领先,很大程度上源于夸克对于产品价值的定位。阿里巴巴集团副总裁吴嘉近日在接受采访时就指出,“夸克的核心定位还是希望成为一个服务广大用户的有用的AI产品。我们的目标始终是成为AI时代体验领先的“超级入口”,让夸克通过‘AI超级框’重构人与信息和任务的交互方式,成为覆盖工作、学习、生活的‘全能助手’。” 知名投资人、金沙江创投董事总经理朱啸虎前不久也在公开场合指出,AI应用将迎来爆发,新的超级应用将不局限于Chat形态,要做成AI超级应用要足够易用、有产品创新。他提到像夸...
- 下一篇
浏览器引擎新贵对决:Servo 与 Ladybird 的全面比较
原文作者:Niccolò Venerandi,发表于2025年3月23日 开源浏览器引擎领域正迎来两位新秀的崛起,它们以不同的方式挑战着Chrome、Firefox和Safari的主导地位。本文将对Servo和Ladybird这两个充满潜力的项目进行深入分析,比较它们的发展历程、资金状况、技术表现与未来前景。 起源与发展历程 Servo最初于2012年作为Mozilla的研究项目诞生,旨在利用Rust语言的内存安全特性和并发功能来加速网页渲染。该项目在2014年通过了基本的Acid2测试,到2016年在某些特定任务上已经能够超越其他引擎。随后,Mozilla开始将Servo的组件移植到Firefox的Gecko引擎中,这个被称为"Quantum"的项目为Firefox带来了显著的性能提升。 然而,2020年Mozilla裁掉了整个Servo团队,项目转由Linux基金会管理,但几乎没有资金支持。直到2023年1月,在"外部资金"的支持下,Servo通过Igalia公司的开发团队重获新生。 Ladybird则是由单一开发者Andreas Kling于2022年创建的开源网络浏览器。然而,...
相关文章
文章评论
共有0条评论来说两句吧...