首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/361911

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

快手联合上交开源统一多模态生成理解模型 Orthus

在今年的ICML上,快手联合上海交通大学提出了一种支持图文交错生成的统一模型——Orthus,目前已开源。该模型基于自回归Transformer架构,能够从文生图、图到文等不同任务学习有价值信号。 根据介绍,仅使用极少的计算资源,Orthus便在多个图像理解指标上超越了现有混合理解生成模型Chameleon和Show-o,并在文生图生成的GenEval指标上优于专用扩散模型SDXL。此外,Orthus还展现出强大的图文交错数据建模能力,在图像编辑和网页生成任务中展现出巨大潜力。 Orthus具有以下核心特性: 自回归Transformer主干; 处理离散的文本token和连续的图像feature; 基于线性层定义的language head和diffusion MLP定义的image head来分别生成文和图; 足够计算高效。 如下图所示,项目团队利用上述两个heads,将图片细节的扩散建模从Transformer主干中解耦。该设计使得主干网络能够专注于刻画文本与图像特征表示之间的关联,而将图像细节信号的恢复任务交由更专业的diffusion head完成。这样解耦既缓解了图像离散化表...

Pika Labs 发布首款纯 AI 社交视频应用

Pika宣布了其开发的首款完全基于 AI 的社交视频应用,并已开放早期访问,用户可通过下载iOS应用加入等待名单。 https://apps.apple.com/gb/app/pika-social-ai-video/id6744712684 Pika 建立在一个“高度表现力的人类视频模型”之上,主打 AI 生成自拍视频,用户仅需一张自拍即可快速生成风格各异的视频,如一键音画同步(如生成唱歌、说唱、Vlog 等视频),更换发色、服装、环境等外观,对他人视频进行混剪,以及 AI 自动生成 Talking Video 脚本等等。 经过几周的内测后,Pika现已开放早期访问。用户可以下载其iOS应用加入等待名单,或通过邀请码直接获得访问权限。

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat

Apache Tomcat

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。