刚刚,StableDiffusion原班人马官宣创业新公司!
3月宣布从StabilityAI出走的RobinRombach,就是StableDiffusion的两个主要作者之一,和十来个原公司小伙伴,正式宣布了组团创业的消息。
新公司名叫BlackForestLab,黑森林实验室。一亮相就kuku发了一个系列、共3款图片生成模型,其中有2个开源。
而且支持中文输入。
效果怎么样?看过的网友称很狂野(wild)!
输入提示词,一次测试出了画面效果和人脸数据等安全措施:
一名十多岁戴着滑雪面罩的女孩在谷仓里做折纸手工。图片底部有指定的黄色文字。背景中有个相框,里面是奥巴马的照片。
单是看了这组图文对照,就有网友感慨,这是他看过最棒的图像生成效果。
要说这家公司的特色,就是主打一个不遮遮掩掩。
今天官宣成立,今天发布系列模型,还宣布了融资进度——
已经完成3200万美元融资,由a16z领投,OculusVR联创BrendanIribe、YC前合伙人GarryTan、NVIDIAResearch领导计算机图形研究小组的TimoAila、苹果杰出科学家(英特尔智能系统前首席科学家)VladlenKoltun等人投资。
可以说,黑森林既得到了资本市场的押注,也得到了业界大佬们的青睐。
AI大牛卡帕西也在线发来贺电,还顺道称赞了一下黑森林的新模型:
歪瑞古德!开源的FLUX.1imagegen模型看起来非常强大。
而且注意了,开源协议是宽松的Apache2.0。
黑森林图像生成模型首秀
卡帕西都觉得exciting了,让咱来视觉感受下黑森林的模型效果。
这里,量子位挑选了五种类型的生成效果展示,图片均由官方提供,未标明具体使用了旗下哪款模型。
第一关,文字生成。
提示词:旧教室黑板的照片。黑板上用粉笔写着“let’smakesomereallyprettystufftogether”,词后有一个红色的粉笔心。阳光从窗户照进来。
第二关,非真实场景+文字生成。
提示词:水下场景中,两只猫头鹰坐在一张精美的餐桌旁,餐桌中央点燃了蜡烛,两只猫头鹰正在一起享用一顿美味的晚餐。左边的猫头鹰穿着燕尾服,右边的猫头鹰穿着漂亮的裙子。背景中有一艘潜艇驶过,其侧面画有“WhataHoot”字样。桌子下面的图像底部有小水母在游动,电影般美丽的数字艺术品。
第三关,现实世界真实场景。
提示词:弗莱堡一条美丽街道的照片,一辆有轨电车经过,人们有的散步有的骑自行车。
第四关,真实人物和动漫人物生成。
提示词:三位女士在市中心街道上拍摄的照片,她们把手伸向镜头。
提示词:美丽的动漫艺术品,一个可爱的猫娘,看起来很沮丧,手里拿着一张纸,上面画着微笑,她快要哭了。
第五关,动物形象生成。
提示词:森林里的一只山猫,由专业摄影在强光下拍摄。
提示词:近距离渲染一个神话生物,由详细的螺旋分形和卷须组成,详细的递归皮肤纹理
FLUX.1系列模型
此次,黑森林共发了FLUX.1系列的3个模型:pro、dev、schnell。
FLUX.1[pro]:系列最强音。
FLUX.1系列的精华,提供最优性能的图像生成,具有一流的指令遵循、视觉质量、图像细节和输出多样性。
黑森林团队正缓步提升API中FLUX.1[pro]的推理计算能力。
此版本可以通过Replicate和fal.ai访问;提供专用和定制的企业解决方案。
FLUX.1[dev]:系列中杯。
一个允许非商业途径使用的模型,开放权重、经过蒸馏。
[dev]直接从[pro]中蒸馏而来,具有相似的质量和迅速的遵守能力,同时比相同尺寸的标准模型更高效。
可在抱抱脸上试玩,或直接在Replicate或fal.ai上试用。
FLUX.1[schnell]:速度小旋风。
系列最快模型,为本地开发和个人开发者量身制作。
FLUX.1[schnell]在Apache2.0许可证下公开可用,模型权重可以前往抱抱脸查询,推理代码可以在GitHub上找到。
已经获得了ComfyUI的支持,可以直接使用;也可以通过Replicate或fal.ai使用。
来个直观感受!
这里放三张照片,是以上大杯、中杯、小杯在不同提示词下,围绕“蛋糕”这个主题的生成效果。
△从左至右,使用模型依次为大、中、小杯
量子位多次测试后发现,输入简单提示词的话,用pro版本生成一张图片的用时在15s-25s之间(成果图下方会显示生成用时)。
黑森林称,所有FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。
3款模型中,FLUX.1[pro]和[dev]在视觉质量、提示响应度、尺寸/长宽高比列灵活性、排版和输出多样性这些方面,超过了Midjourneyv6.0、DALL·E3(HD)和StableDiffusion3-Ultra。
而FLUX.1[schnell],被团队称为“迄今为止最先进的少步骤模型(few-stepmodel)”。
它不仅在同类竞争对手中脱颖而出,还超越了更强大的非压缩模型,如Midjourneyv6.0和DALL·E3(HD)。
整个FLUX.1系列都经过了专门的微调,以求保留预训练阶段的全部输出多样性。
与已有的技术相比,FLUX.1还有以下优势:
有人免不了要问了,你们是StabilityAI的OG元老,是核心成员。
So,你们这新模型,跟人家旗下的StableDiffusion有啥区别?
创始团队成员在Reddit上进行了回应:
即使是我们的最弱型号schnell,生成质量也更好,生成速度也更快。
主打一个我成立新公司超越我自己
SD主要作者组团打造
介绍完模型相关资料,是时候正式来认识一下这家新公司了。
黑森林实验室,今天刚刚宣布成立。
公司官网上,赫然写着一句口号:Aneweraofcreation。
公司使命推进最先进、高质量的图像和视频生成深度学习模型,并将其提供给最广泛的受众。
华点出现了!他们的下一步野心很明显,就是还要进军视频生成领域。
还放话,得是“SOTA”。
核心成员RobinRombach,StabilityAI前研究科学家。
在StabilityAI工作期间,他是StableDiffusion模型的主要开发者之一,也参与研究了SDXL、SVD等项目。
今年3月,Robin从StabilityAI跑路。
外界评价他的离开让原本就乱成一锅粥的这家独角兽伤筋动骨——毕竟他是SD的两位主力之一。
往前回顾,Robin在海德堡大学拿下物理学的本科和硕士学位。
2020年,他在海德堡计算机视觉小组在BjörnOmmer的指导下开始攻读计算机科学博士学位,并于2021年随研究小组移至慕尼黑大学。
研究重点关于生成深度学习模型,特别是文本到图像系统。
谷歌学术被引数接近1.5万。
此外,官网公开的成员中,AndreasBlattmann、AxelSauer、DominikLorenz、DustinPodel、FredericBoesel、PatrickEsser、SumithKulal、TimDockhorn、YamLevi、ZionEnglish都是可公开查询到的StabilityAI原成员。
(AndiHolmes和JonasMüller两人暂未查询到准确资料)
可以说,黑森林就是SD的原班核心成员们出走再启航了。
难怪AxelSauer转发了官推,大声呐喊:
我们还活着!
OneMoreThing
好巧不巧,同一天,StabilityAI也有新动作:
推出新的AI模型StableFast3D,官方称它可以在半秒内生成3D图像。
此前的模型需要数分钟才能生成类似效果的3D图像,新模型完成相同任务的速度是现有的1200倍。
那StabilityAI在3月跑路的CEO,EmadMostaque,他在干嘛呢?
六月份,他官宣了自己的去向,新公司SchellingAI,“将构建和支持由AI资金支持的开源代码、模型和数据集”。
重点精力放在创新研究和精心构建具有文化意识、科学、教育和创意的AI。
三天前,SchellingAI发布了系列文章第一篇,《HowToThinkAboutAI》。
文章有点长,感兴趣的朋友们可以搜索自行查看,这里就提一下核心思想——
AI发展很快,提倡开源开放,加速创新协作。
以及,要不说大家都是体面人呢!
黑森林实验室宣布成立的推文,人家前CEO还是友情转发了的(此处放一个狗头)。
参考链接:[1]https://blackforestlabs.ai[2]https://news.ycombinator.com/item?id=41130620[3]https://x.com/EMostaque[4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/[5]https://x.com/SchellingAI/status/1818600200232927721
未经允许不得转载:头条资讯网_今日热点_娱乐才是你关心的时事 » StableDiffusion原班人马新公司官宣!连发新模型刷新AI绘画格局