您现在的位置是:首页 > 文章详情

AnyText —— 多语言视觉文本生成和编辑

日期:2024-01-25点击:125

AnyText 包含一个具有两个主要元素的 diffusion pipeline:辅助潜在模块和文本嵌入模块。

前者使用文本字形、位置和蒙版图像等输入来生成用于文本生成或编辑的潜在特征。后者采用 OCR 模型将笔划数据编码为嵌入,与 tokenizer 中的图像标题嵌入混合,生成与背景无缝集成的文本。采用 text-control diffusion loss 和  text perceptual loss 进行训练,以进一步提高书写准确性。

原文链接:https://www.oschina.net/p/anytext
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章