您现在的位置是:首页 > 文章详情

字节跳动 Seed 团队开源多模态基础模型 Bagel,支持视觉理解、文生图和图像编辑

日期:2025-05-23点击:354

字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。

BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2.5-VL和InternVL-2.5。

在文本到图像生成质量上,BAGEL的表现可与专用生成器SD3相媲美。在经典图像编辑场景中,BAGEL展示了优于许多领先开源模型的定性结果。

BAGEL采用了混合变换器专家(MoT)架构,并使用两个独立编码器分别捕捉图像的像素级和语义级特征。模型遵循“下一个标记组预测”范式进行训练,预训练使用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记。

经过持续训练和监督微调,BAGEL展示了先进的上下文多模态能力,包括自由形式图像编辑、未来帧预测、三维操作和世界导航(“世界建模”任务)。

研究表明,结合变分自编码器(VAE)和视觉变换器(ViT)的特征显著提升了智能编辑能力。BAGEL以Apache 2.0许可证开源。

 

开源地址

https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
https://github.com/ByteDance-Seed/Bagel

论文地址

https://arxiv.org/abs/2505.14683

原文链接:https://www.oschina.net/news/351446/bytedance-seed-bagel-7b-mot
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章