微软 Phi-4 家族新成员：Phi-4 多模态和 Phi-4 迷你-低调大师

微软 Phi-4 家族新成员：Phi-4 多模态和 Phi-4 迷你

2025-02-27 361

微软于 2024 年 12 月发布了 Phi-4，这是一款在同类产品中表现卓越的小型语言模型（SLM）。

今日，微软宣布为 Phi-4 家族推出两款全新模型：Phi-4 多模态（Phi-4-multimodal）和 Phi-4 迷你（Phi-4-mini）。

Phi-4 多模态模型是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型，参数量达 56 亿。在多项基准测试中，Phi-4 多模态的表现优于其他现有的先进全模态模型，例如谷歌的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite。

在语音相关任务中，Phi-4 多模态在自动语音识别（ASR）和语音翻译（ST）方面超越了 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型。微软表示，该模型在 Hugging Face OpenASR 排行榜上以 6.14% 的词错误率位居榜首。

在视觉相关任务中，Phi-4 多模态在数学和科学推理方面表现出色。在文档理解、图表理解、光学字符识别（OCR）和视觉科学推理等常见多模态能力方面，该模型与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美甚至超越。

Phi-4 迷你模型则专注于文本任务，参数量为 38 亿。其在文本推理、数学计算、编程、指令遵循和函数调用等任务中表现优异，超越了多款流行的大型语言模型。

为确保新模型的安全性和可靠性，微软邀请了内部和外部安全专家进行测试，并采用了微软人工智能红队（AIRT）制定的策略。经过进一步优化后，Phi-4 迷你和 Phi-4 多模态模型均可通过 ONNX Runtime 部署到设备端，实现跨平台使用，适用于低成本和低延迟场景。

目前，Phi-4 多模态和 Phi-4 迷你模型已在 Azure AI Foundry、Hugging Face 和 NVIDIA API 目录中上线，供开发者使用。

Scorecards：开源项目安全性评分应用

Scorecards是谷歌开发，由开源安全基金会 (OpenSSF) 开源的首批项目之一，其目标是为开源项目自动生成一个 "安全分数"，以帮助用户确定用例的信任度、风险和安全态势。 Scorecards 定义了初始评估标准，它被用于以一种完全自动化的方式为开源项目生成一个评分卡。评分卡的每项检查都可以被控制是否启用，部分评估指标包括定义良好的安全策略、代码审查流程以及使用模糊测试和静态代码分析工具的持续测试覆盖率。每项安全检查都会返回一个布尔值以及信任度分数。随着 Scorecards 被广泛使用，谷歌会通过 OpenSSF 的社区贡献来改进这些指标。

2025-02-27

285

一种新的商品表现形态，内容几乎存在于手淘用户动线全流程，例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力，能够从供给端缓解内容生产成本高的问题，通过源源不断的低成本供给倒推消费生态的建立。过去一年，我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关，AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验，我们将开启一段时间的内容AI专题连载，欢迎大家一起交流进步。技术介绍多模态驱动的人物视频生成技术具有重要的应用价值和发展前景。在商业领域中，虚拟主播与数字员工正逐步改变传统的营销和服务模式。通过提供不间断的智能客服、直播带货等服务，它们显著提升了运营效率和用户体验。此外，在教育、医疗及文化娱乐产业等领域内，人物也有着广泛的应用场景。然而，要实现上述丰富应用场景，则需掌握并突破一系列关键的技术瓶颈。为了深入理解人物视频生成技术的发展现状及其工作机制，本文首先回顾了该领域的关键技术，包括口唇驱动、头部驱动以及肢体驱动，并选取每项技术中的两篇...

2025-02-24

502

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。