IT之家10月14日消息,智谱技术团队今天宣布开源文生图模型CogView3及CogView3-Plus-3B,该系列模型的能力已经上线“智谱清言”App。
据介绍,CogView3是一个基于级联扩散的text2img模型,其包含如下三个阶段:
第一阶段:利用标准扩散过程生成512x512低分辨率的图像。
第二阶段:利用中继扩散过程,执行2倍的超分辨率生成,从512x512输入生成1024x1024的图像。
第三阶段:将生成结果再次基于中继扩散迭代,生成2048×2048高分辨率的图像。
官方表示,在实际效果上,CogView3在人工评估中比目前最先进的开源文本到图像扩散模型SDXL高出77.0%,同时只需要SDXL大约1/10的推理时间。
CogView3-Plus模型则在CogView3(ECCV/'24)的基础上引入了最新的DiT框架,以实现整体性能的进一步提升。据介绍,其采用Zero-SNR扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的MMDiT结构相比,它在保持模型基本能力的同时,有效降低训练和推理成本。CogView-3Plus使用潜在维度为16的VAE。
IT之家附地址如下:
开源仓库地址:
https://github.com/THUDM/CogView3
Plus开源模型仓库:
https://huggingface.co/THUDM/CogView3-Plus-3Bhttps://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B
未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » 智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App