微软 Phi-4 家族新成员:Phi-4 多模态和 Phi-4 迷你
微软于 2024 年 12 月发布了 Phi-4,这是一款在同类产品中表现卓越的小型语言模型(SLM)。
今日,微软宣布为 Phi-4 家族推出两款全新模型:Phi-4 多模态(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。
Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量达 56 亿。在多项基准测试中,Phi-4 多模态的表现优于其他现有的先进全模态模型,例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。
在语音相关任务中,Phi-4 多模态在自动语音识别(ASR)和语音翻译(ST)方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型。微软表示,该模型在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率位居榜首。
在视觉相关任务中,Phi-4 多模态在数学和科学推理方面表现出色。在文档理解、图表理解、光学字符识别(OCR)和视觉科学推理等常见多模态能力方面,该模型与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。
Phi-4 迷你模型则专注于文本任务,参数量为 38 亿。其在文本推理、数学计算、编程、指令遵循和函数调用等任务中表现优异,超越了多款流行的大型语言模型。
为确保新模型的安全性和可靠性,微软邀请了内部和外部安全专家进行测试,并采用了微软人工智能红队(AIRT)制定的策略。经过进一步优化后,Phi-4 迷你和 Phi-4 多模态模型均可通过 ONNX Runtime 部署到设备端,实现跨平台使用,适用于低成本和低延迟场景。
目前,Phi-4 多模态和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线,供开发者使用。
相关链接

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Scorecards:开源项目安全性评分应用
Scorecards是谷歌开发,由开源安全基金会 (OpenSSF) 开源的首批项目之一,其目标是为开源项目自动生成一个 "安全分数",以帮助用户确定用例的信任度、风险和安全态势。 Scorecards 定义了初始评估标准,它被用于以一种完全自动化的方式为开源项目生成一个评分卡。评分卡的每项检查都可以被控制是否启用,部分评估指标包括定义良好的安全策略、代码审查流程以及使用模糊测试和静态代码分析工具的持续测试覆盖率。每项安全检查都会返回一个布尔值以及信任度分数。 随着 Scorecards 被广泛使用,谷歌会通过 OpenSSF 的社区贡献来改进这些指标。
- 下一篇
多模态人物视频驱动技术回顾与业务应用
一种新的商品表现形态,内容几乎存在于手淘用户动线全流程,例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力,能够从供给端缓解内容生产成本高的问题,通过源源不断的低成本供给倒推消费生态的建立。过去一年,我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关,AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验,我们将开启一段时间的内容AI专题连载,欢迎大家一起交流进步。 技术介绍 多模态驱动的人物视频生成技术具有重要的应用价值和发展前景。在商业领域中,虚拟主播与数字员工正逐步改变传统的营销和服务模式。通过提供不间断的智能客服、直播带货等服务,它们显著提升了运营效率和用户体验。此外,在教育、医疗及文化娱乐产业等领域内,人物也有着广泛的应用场景。 然而,要实现上述丰富应用场景,则需掌握并突破一系列关键的技术瓶颈。为了深入理解人物视频生成技术的发展现状及其工作机制,本文首先回顾了该领域的关键技术,包括口唇驱动、头部驱动以及肢体驱动,并选取每项技术中的两篇...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS7设置SWAP分区,小内存服务器的救世主
- Hadoop3单机部署,实现最简伪集群
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Windows10,CentOS7,CentOS8安装Nodejs环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- 设置Eclipse缩进为4个空格,增强代码规范
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS关闭SELinux安全模块