谷歌发布 AI 文件检测工具 Magika 1.0,全面采用 Rust 语言

谷歌公司在近期宣布推出 Magika1.0,这是其基于人工智能的文件类型检测系统的最新稳定版本。此次版本的发布,标志着 Magika 在性能和安全性方面的重大提升,因为核心引擎已全面迁移至 Rust 语言。自去年开源以来,Magika 已经在开源社区中获得了广泛应用,每月下载量超过100万次。

新版 Magika 的架构进行了全面重构,显著提高了处理速度和内存安全性。谷歌表示,这款工具能够在单核处理器下每秒识别数百个文件,借助多核 CPU 则可扩展至每秒数千个文件。Magika1.0采用 ONNX Runtime 进行模型推理,并利用 Tokio 框架实现异步处理,确保其高效运行。

在文件格式的支持方面,Magika1.0的检测能力已经扩展到200多种文件格式,几乎是初始版本的两倍。新增的文件类型包括数据科学与机器学习中的 Jupyter Notebooks、Numpy、PyTorch 等,以及现代编程和网页开发中的 Swift、Kotlin、TypeScript 等。此外,还支持 DevOps 相关文件和多种数据库及图形格式文件,如 SQLite 和 AutoCAD。

Magika1.0不仅提升了对相似格式文件的识别能力,还改善了对不同编程语言文件的区分,如 C 与 C++、JavaScript 与 TypeScript 等。谷歌在技术实现方面也面临诸多挑战,包括训练数据的庞大规模和部分文件类型样本稀缺。为此,谷歌开发了自有的数据集库 SedPack,并通过生成式 AI 工具 Gemini 创造高质量的合成训练数据,以提升模型的泛化能力。

值得注意的是,Magika 还更新了 Python 与 TypeScript 模块,使得开发者可以更轻松地进行集成。用户可以通过简单命令在不同操作系统上安装 Magika,并且谷歌鼓励开发者参与到该项目中来,继续优化与扩展工具的功能。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/382245

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。