悟了,多模态才是智能应用爆发的关键
此前,快手发布2025年一季度财报时,一个数字引发关注:成立仅两年的 AI 业务线“可灵 AI”单季度贡献营收1.5亿元,同比增长320%。而可灵 AI 正是一个多模态应用的典型产品,涉及到语言、视频、音频等交互。 前不久,在 OSCHINA 和小度教育技术负责人丁小晶的对话中。丁小晶表示,多模态技术非常重要,甚至可以说,没有多模态技术效果的快速提升,教育行业不可能如此迅猛发展。比如 AI 作业批改和 AI 讲题答疑方向的应用,完全靠纯文本大模型是无法满足需求的,非常依赖对大模型的图片理解能力。还比如超拟人 AI 老师,语音情感大模型就起来非常关键的作用。 百度最新发布的发布文心快码 Comate AI IDE 产品,其中也提到了多模态能力的增强,比如支持 Figma 设计稿一键转换为高可用代码,能实现图层的精准还原。百度工程效能部前端研发经理杨经纬告诉开源中国,无论是从自然语言、图片还是设计稿生成代码,最终都是为了能更加接近人类工程的意图,因为人类去描述自己想要实现的想法的方式与形态是多种多样的,也就对应了研发过程中的多模态形式。 人类从不会只用一种感官认知世界。人工智能也势必不能仅...