在刚刚落幕的 OpenAI 12 天发布会中,OpenAI 为我们揭开了诸多新功能的神秘面纱,从模型的惊艳升级到功能的创新拓展,每一天的发布会都引发了全球科技爱好者与从业者的热议,让大家对人工智能的未来充满无限遐想。发布会前七天精华欢迎点击链接查看,今天我们将带大家回顾,后半程 OpenAI 又展露了哪些前沿硕果。
Day 8 ChatGPT Search:新一代 AI 搜索
在 OpenAI 连续发布会的第八天,ChatGPT 搜索功能迎来全面升级,并面向免费用户开放,一举补齐即时消息短板。其实早在 11 月,它就以 OpenAI 的 SearchGPT 原型面向付费用户推出。这次更新为 ChatGPT 搜索带来了更快的搜索速度、全新的地图体验和 YouTube 视频嵌入等突破性功能。这背后是 GPT-4o 模型的精细调优版本的强力驱动,如今,无论是 ChatGPT 网页版、手机还是桌面应用,用户在与 ChatGPT 聊天时,均可通过网络资源快速获取信息,随时随地开启智能搜索之旅。
借助升级后的 ChatGPT 搜索功能,用户可直接在 ChatGPT 里获取股票、新闻、赛事、活动等实时资讯,还可得到图片、视频等多样形式。为强化该功能,OpenAI 牵手多家头部新闻及数据供应商合作,针对天气、股票、体育、新闻、地图等类别采用全新视觉设计,优化使用体验。用户不仅能依据 AI 搜索结果里的链接,让 ChatGPT 快速生成详细摘要,还能顺着搜索结果延续对话,深入挖掘信息。ChatGPT 会按需智能调用网络搜索结果,当然,用户若有需求,也能主动开启网络搜索。
![]()
用搜索功能查看天气、体育、新闻和地图
此外,ChatGPT 搜索支持最新发布的高级语音模式,用户只需按下撰写栏中的音频波形按钮,即可通过语音便捷查询最新信息,系统还贴心配备 10 种预设语音风格。为了满足对特定类型信息的优先获取需求,搜索功能支持用户自主设置默认搜索引擎,搜索结果便能优先呈现指向特定网站(如 Netflix 或 Booking.com 等)的链接,助力用户快速获取目标信息。
手机端的优化也成效显著。在发布会直播的演示中,OpenAI 演示了在手机端使用 ChatGPT 搜索功能寻找旧金山 Mission 地区的墨西哥风味餐厅、获取餐厅信息、根据需求进一步筛选结果,并通过集成的地图功能规划行程。毫无疑问,ChatGPT 搜索正逐步发展为谷歌等传统搜索引擎的有力竞争者。
![]()
用 ChatGPT 搜索餐厅演示
Day 9 o1 API:赋能开发者与应用拓展
在第 9 天的发布会主题为 “Dev Day Holiday Edition”,顾名思义,这是一场开发者的“狂欢”。今天的发布内容可以用三个“更”来总结:更好的模型 API,更低的调用,和更新的技术。
![]()
正式开放 o1 模型 API
OpenAI o1 模型面向第五层(usage tier 5)开发者开放API。o1 作为 OpenAI 的最强推理模型,具有诸多强大的核心功能,可支持实际用例包括:
● 函数调用(Function Calling):无缝连接 o1 与外部数据和 API
● 结构化输出功能(Structured Outputs):生成可靠地遵循自定义 JSON 模式的响应。
● 开发者指令(Developer Messages):为模型指定要遵循的指令或上下文,例如定义语气、风格和其他行为指导。
● 视觉能力(Vision Capabilities):对图形进行推理,开启更多科学、制造或编码等领域应用,特别是在视觉输入至关重要的场景中。
● 更低延迟(Lower Latency):相较于 o1 -preview 版,对于相同请求,o1 的推理 token 使用量平均减少 60% 。
本次发布 o1 模型调用名为 “o1-2024-12-17”,它是基于两周前 ChatGPT 版本展开的全新后训练优化成果,相较于早期的 o1-preview 版本,其在函数调用和结构化输出测试中的表现均实现了长足进步。在价格设定上,o1 模型 API 与预览版本相同,输入 token 的价格是 15 美元每百万 tokens,输出 token 则为 60 美元每百万 tokens。
![]()
实时 API 全面升级
为助力开发者打造更自然流畅、低延迟的对话体验,实时 API(Realtime API) 也迎来了重大更新,此次更新在并行后台响应、自定义输入上下文、响应时机控制、最大会话时长等多个维度发力,全方位强化功能特性,更加适用于开发语音助手、实时翻译工具、虚拟导师和虚拟助手等应用场景。
● 集成 WebRTC
本次更新中,实时 API 集成了 WebRTC。WebRTC 作为一项开放标准,具备强大的功能,涵盖音频编码、流式传输、噪声抑制和拥堵控制等关键技术,能够为多类场景赋能。无论是基于浏览器的应用、移动端 App、物联网设备,还是服务器到服务器的直接通信,WebRTC 都能简化跨平台实时语音产品的构建与扩展,提供流畅且响应迅速的交互体验。即使在复杂的网络环境下,依然能够保持性能稳定。我们常见的视频会议,或低延迟的视频流传输,均采用了 WebRTC。此次实时 API 中集成 WebRTC 为开发者开辟便捷通道,意味着开发者仅需 12 行 JavaScript 代码,即可轻松为应用添加 Realtime 功能。
![]()
让小鹿“开口说话”
● 实时API价格
目前实时 API 提供了 GPT-4o 和 GPT-4o mini 2个版本。 其中,GPT-4o 实时 API 的最新版本号为 “gpt-4o-realtime-preview-2024-12-17”,带来了极具吸引力的价格优化,音频成本降低了 60%,每百万输入和输出的价格分别为40和80美元。而本次发布的实时 API 小型模型 “gpt-4o-mini-realtime-preview-2024-12-17”,目前是 Beta 版本,在成本上出具备一定的优势。GPT-4o mini 实时 API 的价格为 10 美元每百万输入 token 和 20 美元每百万输出 token,音频速率仅为原先的十分之一,大大降低了开发成本,使更多开发者能够使用该功能搭建低延迟的 AI 生成语音响应应用程序。
偏好微调功能
微调 API 现已支持偏好微调(Preference Fine-tuning),使开发者能够基于用户和开发者偏好轻松定制模型。与传统监督式微调不同,偏好微调使用直接偏好优化(Direct Preference Optimization,DPO)策略,通过成对比较的方式进行训练,教会模型甄别优选与非优选的输出结果,进而引导模型识别并生成更符合用户偏好的响应,在处理主观性任务时尤其高效,例如摘要生成、创造性写作,或是语气和风格要求严苛的场景。偏好微调将优先支持 “gpt-4o-2024-08-06”模型,很快也将助力 “gpt-4o-mini-2024-07-18”模型。训练 token 的价格与监督微调相同,支持新模型的更新计划将在明年初推出。
![]()
偏好微调功能演示
为了让开发流程更加顺滑无阻,除了已有的 Python、Node.js 和 .Net 库,OpenAI 还推出了面向 Go 和 Java 开发者的新 SDK 测试版,进一步拓宽了开发者在不同编程环境中与 OpenAI 模型进行交互的便利性。
Day 10 1-800-CHATGPT:和 AI “煲电话粥”
第 10 天的发布会,OpenAI 为用户提供了一种与聊天机器人“对话”的全新方式,既可以拨打 1-800-chatgpt 直接和 ChatGPT 开启语音对话,也能借助 whatsapp 向该号码发消息实现互动交流。现阶段,电话功能的适用范围仅限美国地区,每月为用户提供了 15 分钟的免费通话时长;而 whatsapp 通道则面向全球用户开放。这一全新交互功能的底层架构依托于 Realtime API 和 GPT-4o mini 模型,确保了交互的流畅性。
在发布会上,OpenAI 研究员们使用不同设备拨打该号码与 ChatGPT 进行互动,现场演示了用智能手机询问建筑问题、用老款手机请求翻译服务、用老式旋转拨号电话要求 ChatGPT 以五岁儿童能理解的方式解释概念等场景,展示了这一功能的实用性和跨设备的适应能力。
![]()
ChatGPT “热线电话”
Day 11 深度集成 Mac 应用:ChatGPT 变身 AI Agent
OpenAI连续发布会的倒数第二天,主题为 “Work with Apps”,ChatGPT 与 Mac 应用实现深度集成。不少“眼尖”的网友敏锐察觉到,这或许是 OpenAI 为即将推出的 AI Agent(智能体)精心铺设的前序篇章。
本次 ChatGPT 桌面应用程序迎来众多更新,AI 得以全方位深入用户的工作流。在获得用户授权后,它能够在 30 个应用间无缝切换,支持语音对话,能够自如访问桌面、自动处理文档、执行工作,有效提高办公效率。
在演示中,OpenAI 研究员通过 Warp 连接到 Github,并要求 ChatGPT 统计过去两个月的每日提交。此时,用户只需轻松下达任务,复制黏贴 Warp 已预置好的详细操作步骤,无需繁琐的沟通,ChatGPT 便能迅速理解并开始执行。任务完成后,还可根据需求将结果以直观的图表形式可视化呈现。
![]()
ChatGPT 接入 Warp 演示
此外,该功能还具备智能的模型切换机制,可根据任务难度灵活切换 ChatGPT 模型。就像在发布会演示利用 XCode 进行开发时,研究员依据编码任务的复杂程度,瞬间将模型切换至 o1 pro,确保输出的精准性与高效性。此外,OpenAI 充分考虑到多场景应用需求,支持 ChatGPT 在语音模式下与 Notion、Apple Notes 等多款应用协作,为用户打造全方位、智能化的工作体验。
Day 12 o3 系列:“王者”推理模型
发布会的最后一天,OpenAI 重磅推出了 o3 系列模型,包括 o3 和 o3-mini 两款模型,堪称此次发布会的 “压轴大戏”。o3 系列一登场,便凭借其超强的推理能力惊艳全场,被誉为目前“最强大”的推理模型。其实早在 20 号,Sam Altman 就在 X 上发布 tweets,用三个 “oh” 暗示了 新一代 AI 模型 o3 的发布。
![]()
根据 OpenAI 官方提供的数据来看,o3 模型“纸面参数”迎来了全方位等显著提升,远超以往任何推理模型,着实令人惊叹。在 SweepBench Verified 基准测试中, o3 模型达到了约 71.7% 的准确率,远超 o1 模型 20% 之多。在编码领域,o3 在全球知名的编码竞赛平台 Codeforces 上,相较于 o1 1891 的得分,o3 在延长思考时间的情况下得分高达2727,而 OpenAI 研究员 Mark Chen 的得分也只有2500,充分展现了 o3 接近甚至超越人类专业程序员的超强实力。
在数学领域,o3 模型表现也令人惊艳。在美国数学竞赛 AIME 2024 测试中,它以90.67%的准确率“碾压”了 o1 的 83.3% 的成绩。就连领域内的博士专家,也只能在其专业领域获得约 70% 的准确率。不仅如此,o3 在 ARC-AGI 基准上最低可达到 75%,最高可达 87.5%,成为首个突破该基准的 AI 模型。在 Epic AI 前沿数学基准测试中,目前市面上所有的产品在该测试的准确率均低于 2%,而 o3 在严格设置下准确率可达 25%,充分展现了其强大的数学推理能力。
![]()
![]()
![]()
o3性能测试表现
谈得 AGI,就不得不提专门衡量 AGI 的基准测试 ARC-AGI,ARC-AGI 由 Keras 之父 François Chollet 于 2019 年设计,主要是通过图形逻辑推理来测试模型的推理能力。其特别之处在于,它不考察已学习的知识,而是要求模型通过观察几个示例,推断新任务规则并即时学习,(如,推理规则“在空格处放置深蓝色方块”)。o3 在低算力的配置下得分为 75.7,而在提高算力,并思考更长时间后,o3 在相同的隐藏保留集上得分为 87.5%,远超大多数人类。也许正如 OpenAI 所说,“我们在 AGI 的路上,已经没有阻碍了”。
![]()
Arc AGI 测试题
与 o1 mini 类似,o3 mini 也具有强大的数学和编程能力,且成本较低。o3 mini 支持低、中、高三种推理强度选项,用户可根据任务复杂度灵活选择模式的思考时间。根据发布会 OpenAI 研究员的演示, o3 mini 在编程能力、数学推理等方面三种强度模式下均表现优异。在编程测试中,o3 mini 在中等推理时间下,性能已远超 o1,而成本和延迟较低,这意味着它能让开发者以更经济的方式完成高难度编程任务。此外,o3 mini 还支持函数调用、结构化输出等 API 特性。
![]()
o3 在 ARC-AGI 的表现优异
OpenAI 计划在 2025 年 1 月底正式发布 o3 mini,随后将推出完整版 o3。目前,OpenAI 正在邀请选定的用户测试这套新的推理模型。
随着这 12 天的发布会圆满收官,OpenAI 凭借一系列亮眼成果,稳稳站在了人工智能领域的前沿。其展现出的创新实力与探索精神有目共睹,推出的诸多技术既为科技从业者开拓新应用场景提供了有力支撑,也让普通用户得以更便捷、智能地享受 AI 红利。不难预见,在不久的将来,这些 “科技火种”,将在各行各业呈燎原之势,逐步渗透并重塑我们的生活、工作与学习模式,开启一个全新的智能时代。