Grab 自研语言模型解决亚洲语言识别难题-低调大师

Grab 自研语言模型解决亚洲语言识别难题

2025-11-04 130

新加坡超级应用程序公司 Grab 近日在其工程博客上分享了其自研语言模型的开发经历，指出现有的大型语言模型在理解东南亚语言时表现不佳。Grab 的超级应用程序提供打车、外卖、购物和金融服务等功能，覆盖新加坡、马来西亚、印尼、菲律宾、越南、泰国、柬埔寨和缅甸等国家，这些地区的文档通常使用非拉丁字母的脚本。

在执行如客户身份验证等合规工作时，Grab 需要准确提取身份证、驾照和注册证书等信息。尽管尝试过光学字符识别（OCR）系统，但 Grab 发现这些技术在处理多样化的文档模板时效果不理想。

在2025年，Grab 开始探索是否可以利用大型语言模型来解决这一问题。尽管一些强大的商业模型具备能力，但在理解东南亚语言时常出现错误和延迟，而开源的视觉大型语言模型虽然更高效，但准确性仍不足。因此，Grab 决定自行构建一个视觉大型语言模型，该模型能将图像向量化，方便提取文本。

Grab 选择了阿里巴巴云的 Qwen2-VL2B 模型作为基础，因为它的体积适中，支持东南亚语言，并能动态处理不同分辨率的图像。随后，Grab 从 Common Crawl 中提取了东南亚语言的内容，并建立了内部合成数据管道，以生成各种字体和背景下的文本图像。团队采用低秩适配技术对 Qwen2-VL 进行微调，取得了在印尼文档处理上的良好效果。

尽管在泰语和越南语的识别上仍然存在挑战，Grab 最终决定进行完整参数微调。通过训练模型，使其学习东南亚语言的独特视觉模式，Grab 成功开发了一个轻量级的视觉大型语言模型，其表现超越了多种 OCR 工具和通用模型。Grab 表示，战略性地使用高质量数据，能够使小型专业模型实现高效与有效的结合。

未来，Grab 计划继续开发更多自有模型，以扩展其文档处理技术。

微信关注我们

原文链接：https://www.oschina.net/news/381542

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Firefox 将终止支持 Direct2D，转向 Skia 统一图形架构

Mozilla宣布自Firefox 146版本起，将在Windows 10/11系统中正式停止对微软Direct2D图形系统的支持。这一调整标志着Firefox历时一年的技术过渡进入最终阶段。 Direct2D是微软开发的一套专门用于在Windows系统上高效绘制二维图形（如文本、形状、图片）的程序接口，能让软件直接利用显卡（GPU）的能力来加速绘图，让界面看起来更清晰、响应更快。 https://bugzilla.mozilla.org/show_bug.cgi?id=1995874 Mozilla工程师表示，此次变革旨在实现跨平台技术栈的统一。未来Firefox将全面采用Google开发的Skia图形引擎，配合自有WebRender引擎与Direct3D协同工作，在保持硬件加速的同时简化代码维护。对于普通用户而言，此次底层变更不会造成明显使用差异，部分老旧显卡用户甚至可能获得稳定性提升。目前Firefox 140 ESR版本仍将保留Direct2D支持，以满足特殊需求用户的使用要求。

2025-11-04

132

埃隆·马斯克本周在X上抛出新的气候“降温方案”：部署一组由人工智能控制的卫星，通过微小调整地球接收的太阳辐射量，以抑制全球变暖。这一构想类似学术界讨论多年的太空“遮阳伞”方案，但此前主要停留在理论阶段。马斯克提出，这种“大型太阳能AI卫星”可以通过反射调节地球吸收的能量；更有甚者，他声称如果借助月球工厂，年发电量可达百太瓦。但科学界对此诟病已久，研究显示，要在可观尺度上产生气候效果，可能需要数千颗卫星，成本高达数千亿美元，甚至数万亿美元。具有讽刺意味的是，SpaceX近期因环保问题遭美国空军叫停火箭发射，而马斯克却在提出“拯救气候”的太空方案。马斯克同时也在推动太空算力中心与高吞吐的Starlink V3卫星集群，这类下一代卫星的吞吐量可达每秒1太比特，有望成为太阳能驱动的轨道计算集群的基础设施核心。批评人士质疑，相比动辄万亿成本、治理难以落地的太空地球工程，诸如减少排放、提升能源效率、碳捕捉等“已验证技术”更可行。

2025-11-04

110

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。