首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/361911

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

快手联合上交开源统一多模态生成理解模型 Orthus

在今年的ICML上,快手联合上海交通大学提出了一种支持图文交错生成的统一模型——Orthus,目前已开源。该模型基于自回归Transformer架构,能够从文生图、图到文等不同任务学习有价值信号。 根据介绍,仅使用极少的计算资源,Orthus便在多个图像理解指标上超越了现有混合理解生成模型Chameleon和Show-o,并在文生图生成的GenEval指标上优于专用扩散模型SDXL。此外,Orthus还展现出强大的图文交错数据建模能力,在图像编辑和网页生成任务中展现出巨大潜力。 Orthus具有以下核心特性: 自回归Transformer主干; 处理离散的文本token和连续的图像feature; 基于线性层定义的language head和diffusion MLP定义的image head来分别生成文和图; 足够计算高效。 如下图所示,项目团队利用上述两个heads,将图片细节的扩散建模从Transformer主干中解耦。该设计使得主干网络能够专注于刻画文本与图像特征表示之间的关联,而将图像细节信号的恢复任务交由更专业的diffusion head完成。这样解耦既缓解了图像离散化表...

Pika Labs 发布首款纯 AI 社交视频应用

Pika宣布了其开发的首款完全基于 AI 的社交视频应用,并已开放早期访问,用户可通过下载iOS应用加入等待名单。 https://apps.apple.com/gb/app/pika-social-ai-video/id6744712684 Pika 建立在一个“高度表现力的人类视频模型”之上,主打 AI 生成自拍视频,用户仅需一张自拍即可快速生成风格各异的视频,如一键音画同步(如生成唱歌、说唱、Vlog 等视频),更换发色、服装、环境等外观,对他人视频进行混剪,以及 AI 自动生成 Talking Video 脚本等等。 经过几周的内测后,Pika现已开放早期访问。用户可以下载其iOS应用加入等待名单,或通过邀请码直接获得访问权限。

相关文章

发表评论

资源下载

更多资源
优质分享App

优质分享App

近一个月的开发和优化,本站点的第一个app全新上线。该app采用极致压缩,本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring

Spring框架(Spring Framework)是由Rod Johnson于2002年提出的开源Java企业级应用框架,旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念,提供核心容器、应用上下文、数据访问集成等模块,支持整合Hibernate、Struts等第三方框架,其适用范围不仅限于服务器端开发,绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册