微软开源 Phi-4-reasoning-vision-15B
微软宣布推出 Phi-4-reasoning-vision-15B,一个拥有 150 亿个参数的开放权重多模态推理模型。 Phi-4-reasoning-vision-15B 是一款功能强大的模型,可用于各种视觉语言任务,例如图像描述、图像问答、文档和收据阅读、作业辅导、图像序列变化推断等等。除了这些通用功能外,它在数学和科学推理以及理解和处理计算机和移动设备屏幕上的元素方面表现尤为出色。 公告称,与流行的开放权重模型相比,Phi-4-reasoning-vision-15B 具有极具吸引力的价值,进一步拓展了准确性和计算成本之间的权衡边界。其性能可与计算时间长十倍甚至更多的模型相媲美,并且比速度相近的模型具有更高的准确性,尤其是在数学和科学推理方面。 Phi-4-reasoning-vision-15B旨在足够轻量级,能够在配置一般的硬件上运行,同时在需要时仍能进行结构化推理。与许多近期类似规模的开源轻量级视觉语言模型 (VLM) 相比,该模型训练所需的计算量要少得多,仅使用了 2000 亿个 token 的多模态数据。 Phi-4-reasoning-vision-15B 的训练数...
