字节跳动 Seed 团队开源多模态基础模型 Bagel,支持视觉理解、文生图和图像编辑
字节跳动 Seed 团队发布并开源了多模态基础模型BAGEL,该模型拥有70亿个活跃参数,总参数量达140亿。
BAGEL集视觉理解、文生图、图像编辑于一体,在标准多模态理解基准测试中表现出色,优于现有顶级开源视觉语言模型如Qwen2.5-VL和InternVL-2.5。
在文本到图像生成质量上,BAGEL的表现可与专用生成器SD3相媲美。在经典图像编辑场景中,BAGEL展示了优于许多领先开源模型的定性结果。
BAGEL采用了混合变换器专家(MoT)架构,并使用两个独立编码器分别捕捉图像的像素级和语义级特征。模型遵循“下一个标记组预测”范式进行训练,预训练使用了来自语言、图像、视频和网络数据的数万亿个交错的多模态标记。
经过持续训练和监督微调,BAGEL展示了先进的上下文多模态能力,包括自由形式图像编辑、未来帧预测、三维操作和世界导航(“世界建模”任务)。
研究表明,结合变分自编码器(VAE)和视觉变换器(ViT)的特征显著提升了智能编辑能力。BAGEL以Apache 2.0许可证开源。
开源地址
https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
https://github.com/ByteDance-Seed/Bagel
论文地址

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
马斯克旗下 X 公司租用的数据中心突发大火
多位消息人士向WIRED透露,埃隆-马斯克(Elon Musk)的 X 公司在俄勒冈州希尔斯伯勒(Hillsboro)租用的一个数据中心于当地时间周四上午发生火灾。 消防部门表示,消防人员于上午 10:21 到达位于波特兰西部郊区的希尔斯伯勒科技园,火灾的起因与一间存放电池的房间有关。火势没有蔓延到建筑物的其他部分,但起火房间浓烟滚滚。截至下午 3:00,救援人员仍在现场。 X 没有立即回应 WIRED 的置评请求。目前尚无法得知数据中心的服务器运行是否受到此次事件的影响。 在马斯克收购 Twitter 之前,该公司在萨克拉门托、波特兰和亚特兰大拥有三个数据中心。以确如果一个数据中心出现故障,流量可以转移到另外两个数据中心,从而实现分流,避免单个数据中心不堪重负。 2022年圣诞节前夕,马斯克关闭了位于萨克拉门托的X数据中心,以削减成本。关闭后,该公司经历了一次大规模停电。根据内部文件,在接下来的六个月里,该公司将超过2573个服务器机架从萨克拉门托的数据中心迁移到了波特兰和亚特兰大的数据中心。 在波特兰地区,X 似乎从一栋与全球最大的数据中心开发商之一 Digital Realty ...
-
下一篇
火山引擎发布豆包·语音播客模型
火山引擎正式推出豆包·语音播客模型,该模型基于流式模型构建,实现了从文本创作到双人对话式播客的秒级转化,为用户带来“低成本、高时效、强互动”的全新创作体验。无需复杂剪辑,热点内容就能瞬间转化为生动播客。 根据官方介绍,豆包·语音播客具备三大核心优势: 双人对话自然流畅:以往的 AI 生成语音往往生硬死板,像机器人在说话,而豆包·语音播客模型凭借高度拟人的语音效果,结合真人专业播客中自然附和等口语习惯,让对话效果达到了专业播客录制的水准; 播客创作高效快捷:传统播客制作可能需要耗费大量的时间和精力,而豆包·语音播客模型构建了端到端的便捷链路,一气呵成地完成整个创作过程; 时事热点跟随:在信息更新换代极快的当下,紧跟时事热点是播客保持吸引力的关键。豆包·语音播客模型具备深度搜索功能,用户只需输入热点话题,5秒即可听到利用最新信息生成的播客音频。 此外,豆包·语音播客模型不仅支持用户灵感创作,用户输入一个主题,它就能将想法转化为深度播客观点,为创作者提供丰富的思路和内容;模型还支持超长文本转播客,用户输入文档或 URL 网页地址,就能轻松创作媲美真人的播客作品。 豆包·语音播客模型计划在豆包...
相关文章
文章评论
共有0条评论来说两句吧...