您现在的位置是:首页 > 文章详情

OpenAI 12 天连续发布会 | 前 7 天发生了什么?

日期:2024-12-17点击:155
2024 年 12 月,OpenAI 精心筹备的 12 天连续发布会重磅登场,瞬间成为行业内外瞩目的焦点。OpenAI 官宣将在这 12 场直播中,发布一些”大大小小的新功能“。如今 12 场联播已过半,前 7 天里到底发生了什么?

 

 

DAY 1 o1 完全体 & ChatGPT Pro

 

o1 完全体正式发布

 

2024 年 9 月,OpenAI 发布 o1-preview 版本。与 o1-preview 相比,o1 完全体(Full Version) 更加完备。经 OpenAI 测试,o1 的性能优于 o1-preview,困难的现实问题相关重大错误减少了34%。

 

除了 完全体 o1,OpenAI 还同步发布了o1-mini 版本、和 o1 pro 版本。其中 o1-mini 版本更加轻便,而对于 o1 pro版本,OpenAI 表示:在外部专家测试人员的评估中,o1 pro 在数据科学、编程和判例法分析等领域, 产生了更准确、更全面的回应。通过下面对比数据可以看到可以看到,相较于 o1 和 o1-preview ,o1 pro 模式在数学、科学和编码等方面具有挑战性的机器学习基准测试中表现更好。特别是在更容易反映日常编程查询的编码竞赛题中,错误率降低了 75%。

 

数学、科学和编码方面机器学习基准测试对比

 

在15分钟的发布会中,OpenAI 演示了 o1-pro 实际效果,着实令人惊艳。其中,仅 10 秒,o1-pro 就精准计算散热装置的表面面积,同时阐述了太阳能与深孔环境的互动机制;14 秒就完成了 o1-preview 需要 33 秒完成的列出二世纪的罗马皇帝的在位时间和成就」推理任务。而在之前 o1-preview 无法正确解答的更复杂的「能否基于多条描述推断出所描述的蛋白质种类?」的问题上,o1 pro 在思考了 53 秒之后得到了正确答案,并且还可以在 canvas 中提供了更多细节。

 

o1-pro 关于“列出二世纪的罗马皇帝的在位时间和成就”的演示

 

所有 ChatGPT 付费用户均可通过 ChatGPT 模型选择器工具访问 o1。而 o1-pro 模式则需要GPT Pro 用户才能直接访问。

 

每月 $200 ChatGPT Pro

 

第一天发布会同时发布的还有 ChatGPT Pro。GPT Pro 可无限访问 OpenAI 所有模型,包括其最新发布的 o1 模型完整版本,但价格较为昂贵,为每月 $200。

 

 

DAY 2 强化微调:少量数据即可训练专家模型

 

在 OpenAI 第二天发布会上,核心亮点是“强化微调(Reinforcement Fine-Tuning)”,它将允许用户使用极少的训练数据即可在特定领域轻松创建专家模型。

 

从技术原理来看,强化微调开辟了一条全新的模型训练路径。与传统微调「单纯依赖海量数据 “投喂”,让模型机械性 “记住答案” 」有所不同,强化微调融入了强化学习的理念,赋予模型自主 “思考” 与 “推理” 的能力。不仅如此,强化微调还依托严谨的多轮训练、验证循环机制,每一轮迭代都如同一场严苛的 “试炼”,促使模型不断纠偏、优化,逐步剔除冗余信息与错误策略,直至最佳性能状态。

 

20 分钟的发布会中,OpenAI 演示了之前已经微调好的模型,经过强化微调后得到一个输出模型。通过验证数据集上的奖励分数的变化可以看出,模型在强化微调策略的加持下正持续迭代优化。

 

验证数据集上的奖励分数变化

 

通过对比 o1 模型、o1-mini(强化微调前的模型)、ft:o1-mini-2024-09-12-b(强化微调后的模型),在 top@1(正确答案在列表第 1 个位置的概率)、top@5(正确答案在列表前 5 个位置的概率)和 top@max(输出中包含正确答案的概率)指标上,其表现都明显胜过性能更加强大的最新版 o1。强化微调预计于要等2025年春季开放给用户。

 

 

强化微调性能对比

 

DAY 3 正式版 Sora:王者现真身

 

第三天发布会,万众期待的 Sora 正式版终于露面。

 

技术规格上,Sora Turbo 可稳定生成 1080p 高清视频,时长上限达 20 秒,灵活适配横屏(16:9)、正方形(1:1)、竖屏(9:16)等主流视频画幅,全方位满足不同平台、场景的内容分发诉求。其内置功能更是丰富多元,Remix(替换、删除或重新构想视频中的元素)、Re-cut(找到并隔离最佳帧,然后向任一方向延伸它们以完成场景)、循环(剪辑并创建无缝重复的视频)、故事板剪辑(在时间线上组织和编辑视频的独特序列)、风格预设(创建和分享激发自己想象力的风格)等操作一应俱全,创作者仅凭简单指令,即可随心雕琢视频创意细节,极大降低视频创作门槛。

 

Sora Remix功能展示:将动物替换成机器人

 

现阶段,Sora 仅面向 ChatGPT Plus 和 Pro 用户开放,Plus 用户每月享有 50 条视频生成配额,Pro 用户则高达 5000 条。Sam Altman 表示,最令他兴奋的是 Sora 与他人共同创作的便捷性。虽说发布初期因流量暴增遭遇服务器拥堵、生成速度放缓等小波折,但相信 OpenAI 技术团队定能迅速攻克难题,让 Sora Turbo 释放全部潜能。

 

Sam Altman 对 Sora 的评价

 

DAY 4 Canvas:提升写作与编程体验

 

第四天,OpenAI正式发布 ChatGPT Canvas,并面向包括免费用户在内的所有用户开放。ChatGPT Canvas 是 OpenAI 在今年10月推出的基于 ChatGPT 的全新功能,OpenAI 对其定义为 A new way of working with ChatGPT to write and code,顾名思义,Canvas 将重塑用户与 ChatGPT 的交互范式,深度融合写作与编程场景。

 

Canvas 就像一个共享画布,用户和 ChatGPT 可以实现共同创作。在写作方面,用户可以与 ChatGPT 协作编辑文档,轻松实现修改标题、添加表情符号、调整文本长度及阅读等级等操作。在编程领域,Canvas 支持 Python 代码运行,内置 WebAssembly Python 模拟器,可快速加载几乎任何 Python 库并运行代码,即时反馈结果并协助调试。

 

在 canvas 上运行代码并 debug

 

DAY 5 ChatGPT X Apple Intelligence

 

12天发布会的第5天,ChatGPT 正式登录 IOS 生态系统,将全面支持苹果 iPhone、iPad、Mac 设备。这一消息早在今年6月份 WWDC 大会上,就已流传开来。

 

Sam Altman 对 ChatGPT 集成 IOS 的评价

 

OpenAI 的集成将覆盖三个核心功能:

 

  • Siri 的支持

苹果语音助手 Siri 将支持智能的把复杂任务转交给 ChatGPT。例如,Siri 在识别到需要更深入推理的问题时,会提示将任务委托给 ChatGPT 来解答。

 

  • 写作工具升级

苹果的智能写作工具将引入 ChatGPT 能力。借助 ChatGPT,用户不仅能优化、总结文档,提取关键信息,还能从零开始创作全新文档,甚至结合 DALL-E 图像生成技术在撰写过程中融入精美图片。

 

  • 视觉智能能力

通过集成 ChatGPT 的视觉能力,用户可以轻触 “相机控制” 按钮便可轻松完成视觉智能相关任务,例如利用搜索功能快速识别眼前物品,或借助 ChatGPT 深入了解所观内容,执行翻译、文本总结等。

 

遗憾的是,苹果智能暂不支持中国大陆地区,主要面向特定英语地区用户开放。

 

DAY 6 OpenAI 版「Her」全量上线

 

第六天,OpenAI 把发布会的圣诞气息推向高潮,不仅为 ChatGPT 的高级语音模式带来了视频输入和实时屏幕共享功能,并限时推出圣诞老人语音模式。

 

视频输入赋予了 ChatGPT 前所未有的 “视觉感知” 能力,高级语音模式,使用的是多模态 4o 模型,意味着它可以直接输入音频,理解并直接输出音频。高级语音功能实现人机交互从单纯语音语义理解向多维视觉语义融合的飞跃。开启视频模式瞬间,ChatGPT 不再是隐匿于云端的代码集合,而是化身为能洞察秋毫的智能交互实体。而屏幕共享功能让 ChatGPT 能够实现帮助用户回复消息、辅助工作和学习等场景。

 

ChatGPT 高级语音模式让电影场景“成真”

 

ChatGPT 不仅迅速判别出场景的物体并给出回答,甚至在没有引导的情况下便主动地发现了场景潜在的需求,然后向研究员提出了对应的问题。 在 OpenAI 发布会的演示中,ChatGPT 不仅准确识别出研究员通过摄像头展示的一套咖啡设备,并推测出”你打算冲咖啡么“的潜在需求。在研究员表示自己打算制作手冲咖啡,并要求 ChatGPT 给出具体步骤时,ChatGPT 不仅出色完成了任务,还在制作完成后,在研究员的要求下,为研究员的表现进行了点评。

 

ChatGPT 讲授如何泡咖啡

 

DAY 7 ChatGPT 新增功能:Projects

 

第七天,OpenAI 推出了名为 "Projects in ChatGPT" 全新功能,可用于项目管理与写作、文件与数据管理、个性化定制等场景。

 

与其竞争对手 Anthropic 于6月推出的 Claude 新功能有异曲同工之妙,Project 功能支持用户将相关资料、文件、聊天记录等信息集中到一个“Project”(项目)中。在创建项目时,可进行文件上传、设定个性化指令等操作,也支持将过往对话添加到项目中,可根据项目需求定制 ChatGPT 的对话。在 Projects 中创建新对话时,也能自动索引项目中的其他信息,进行更精准的回答。此外rojects in ChatGPT 还支持 Canvas 界面,并能通过 ChatGPT Search 轻松接入互联网资源。

 

"Secret Santa" 的 Project 功能演示

 

目前,Project 功能仅面向 ChatGPT Plus/Pro 用户开放,随后将推广至免费用户,并计划于明年初向企业和教育用户提供。

 

OpenAI 12 天连续发布会已然过半,这前 7 天的发布会火力全开,每一天都为我们勾勒出 AI 赋能未来的崭新蓝图。后续 5 天究竟藏着哪些科技宝藏,让我们拭目以待,持续锁定这场科技盛宴!

原文链接:https://my.oschina.net/ai4ai/blog/16744377
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章