您现在的位置是:首页 > 文章详情

蚂蚁数科推出多语种视觉大模型训练框架

日期:2025-11-04点击:3

 蚂蚁数科在香港金融科技节上发布了一项“多语种多模态大模型训练框架”技术,旨在解决当前大模型在多语言环境中的应用瓶颈。该框架在埃及阿拉伯语、印尼爪哇语、巴哈萨语及巽他语等资源稀缺的小语种上表现尤为突出。

这一突破的核心在于创新的语言感知优化框架。该框架通过 “以目标语言进行思考” 的机制,结合细粒度多维度的奖励策略与自动化数据解决方案,实现在小语种的深度理解和处理。

根据测试结果,与同等规模的开源模型相比,该框架在主流多语言视觉问答(Multilingual Visual Question Answering, VQA)基准测试中准确率提升了约9.5%,在部分任务中甚至优于 GPT-4o 和 Gemini-2.5-flash 等国际主流闭源模型,获得评测总分第一

在安全能力方面,蚂蚁数科还推出了图像安全框架,结合视觉分析与常识推理的伪造识别路径,能够高效识别图像中的视觉不一致性和逻辑矛盾。这一技术不仅能够定位篡改区域,还能进行可解释分析,显著提升数字内容的风险控制能力。

作为蚂蚁数科全球业务的核心技术,这两项能力已在 ZOLOZ 文档识别鉴真产品(RealDoc)中实现了规模化应用,支持119种语言,能够高效处理多语种商务文档、合同和证件,覆盖保险理赔、信贷审核及跨境贸易等多个场景。

原文链接:https://www.oschina.net/news/381527
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章