Meta 计划在 Llama 4 中引入改进的语音功能,接近双向自然对话
英国金融时报援引知情人士消息称, Meta 计划在其最新的开源大型语言模型 Llama 4 中引入改进的语音功能,预计将在未来几周内推出,因为该公司认为未来所谓的人工智能代理将以对话为主,而不是以文本为主。
一位知情人士透露,该公司特别注重让用户和语音模型之间的对话更接近双向自然对话,允许用户打断,而不是采用更为死板的问答形式。
在推动语音技术发展之际,Meta 首席执行官扎克伯格已经提出了大胆计划,要将这家价值 1.7 万亿美元的硅谷公司打造成“AI leader”。扎克伯格称,2025 年是该公司许多 AI 产品的成败之年。
两位知情人士表示,这促使该公司考虑试行其 AI 助手 Meta AI 的高级订阅服务,用于执行预订和视频制作等代理任务。其中一位知情人士表示,该公司还在考虑在其 AI 助手的搜索结果中引入付费广告或赞助帖子。
扎克伯格今年透露了打造一个 AI 工程代理的计划,其编码和解决问题的能力相当于中级工程师,并称其具有 “非常大的潜在市场”。
日前,Meta 首席产品官克里斯·考克斯(Chris Cox)透露了 Llama 4 的一些计划,称它将是一种“omni model”,即语音将“成为原生的……而不是将语音翻译成文本,将文本发送到 LLM,输出文本,然后再将其转换回语音”。
“我相信这对于界面产品来说意义重大,你可以与互联网对话,向它询问任何事情。我认为我们仍在思考它到底有多强大。”
两位知情人士表示,Meta 还一直在讨论最新款 Llama 型号应具备的输出限制以及是否要降低限制。
