昆仑万维发布 Skywork R1V4-Lite
昆仑万维正式发布 Skywork R1V4-Lite,一款集成视觉操作、推理与规划的轻量级多模态智能体。不仅能进行深度推理,还在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。
与传统只能“看图回答”的模型不同,Skywork R1V4-Lite能够在真实场景中随手拍照即可完成复杂任务:自动旋转图像判断空间位置、多次放大读取模糊文字、绘制辅助线验证几何关系、跨模态搜索定位真实地点等等。这意味着用户不需要设计提示词,不需要提供额外信息,只需拍一张图,Skywork R1V4-Lite就能自己观察、操作、推理并给出答案。
基准测试结果表明,Skywork R1V4-Lite 在8个多模态理解基准评测上整体领先Gemini 2.5 Flash,其中5个任务上超过Gemini 2.5 Pro的水平。
Skywork R1V4-Lite 也支持接入联网搜索功能,在联网搜索下会自动触发深度研究能力。从结果上看,R1V4-Lite在多模态DeepResearch类任务中展现出了领先趋势:在mm-search上以66分超过Gemini 2.5 Flash的64.9分,在FVQA上以67分显著领先Gemini 2.5 Flash的60.8分。
昆仑万维方面表示:
R1V4-Lite的成功不仅来自工程优化,更源自其背后的多模态新范式:图像操作×深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力,展示了轻量多模态智能体的全新可能性。
这一结果进一步说明:能力密度比参数规模更重要,小模型也能逼近闭源模型的真实表现。随着更大容量与更强结构进一步加入该范式,其scaling潜力将持续释放。目前,Skywork R1V4-Pro也即将准备发布。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
AI 解码三十三亿年前生命信号
一支多学科科研团队将尖端化学与人工智能(AI)技术相结合,发布了一项关于地球最早生命的重要研究成果。该研究用AI解码33亿年前生命信号,不仅在古老岩石中发现了新的生命化学证据,还揭示了产氧光合作用的分子痕迹,这比此前记录早了8亿多年,为理解生命起源与演化提供了全新视角。研究发表于最新一期《美国国家科学院院刊》。 该研究由美国卡内基科学研究所联合多所大学与机构共同完成。研究团队分析了406个样本,涵盖古代沉积物、化石、现代动植物组织以及陨石等,旨在探索生命特征是否能在原始生物分子被地质作用破坏后,仍以某种形式保留在岩石中。 团队采用热解—气相色谱—质谱技术,将样本中的有机与无机材料分解为化学碎片,释放出被困的分子信号。随后,他们利用名为“随机森林”的机器学习模型,识别不同来源物质的化学模式。该模型通过构建数百棵决策树,对数据进行分类,从而提取潜在的生态与生物分类信息。这是首次将热解—气相色谱—质谱数据与监督式机器学习结合,用于识别数十亿年历史岩石中的生命痕迹。 分析结果显示,该方法能够以超过90%的准确率区分生物来源(如微生物、植物和动物)与非生物来源(如陨石或实验室合成碳)。尤其令人振...
-
下一篇
蚂蚁发布全模态通用 AI 助手「灵光」
蚂蚁集团发文宣布推出「灵光」App。 据介绍,「灵光」是蚂蚁推出的全模态通用 AI 助手,支持“自然语言 30 秒生成小应用”,同时它也是业内首个全代码生成多模态内容的 AI 助手,支持 3D 数字模型、音频、图标、动画、地图等全模态的信息输出,对话更生动,交流更高效。 「灵光」首批上线三大功能:“灵光对话”、“灵光闪应用”、“灵光开眼”,目前已同步登陆安卓与苹果应用商店。据称「灵光」将作为蚂蚁集团 AGI(通用人工智能)战略的产品级探索。
相关文章
文章评论
共有0条评论来说两句吧...




微信收款码
支付宝收款码