OpenAI 发布更快更便宜的 GPT-4o 模型
OpenAI 推出了一款最新的旗舰生成式 AI 模型 GPT-4o,其中“o”代表“omni”,源自拉丁语“omnis(意为“全能”)”,指的是该模型处理文本、语音和视频的能力。 GPT-4o将在未来几周内向所有免费的 ChatGPT 用户开放,同时还将推出一个 MacOS 版的 ChatGPT 桌面应用程序(稍后将推出 Windows 版),允许用户在网络和移动应用程序之外进行访问。 OpenAI 首席技术官 Mira Murati 表示,GPT-4o 提供了“GPT-4 级别”的智能,但改进了 GPT-4 跨多种模式和媒体的能力。“GPT-4o 可以跨越语音、文本和视觉。这一点非常重要,因为我们正在研究我们自己与机器之间交互的未来。” 根据介绍,GPT-4o 对语音功能进行了增强,提升交互体验。例如,用户可以向 GPT-4o 支持的 ChatGPT 提问,并在 ChatGPT 回答时打断它。 OpenAI 表示,该模型提供“实时”响应能力,甚至可以识别用户声音中的细微差别,从而生成“一系列不同情感风格”(包括唱歌)的声音。 “它可以在短短 232 毫秒内响应音频输入,平均为 320...
