Black Forest Labs发布FLUX.1:新一代文本转图像AI模型

369次阅读
没有评论

共计 901 个字符,预计需要花费 3 分钟才能阅读完成。

周四,AI 初创公司 Black Forest Labs 宣布成立并发布了其首个文本转图像 AI 模型套件,名为 FLUX.1。这家总部位于德国的公司由开发 Stable Diffusion 技术并发明潜在扩散技术的研究人员创立,旨在为图像和视频创建先进的生成式 AI。

Black Forest Labs 发布 FLUX.1:新一代文本转图像 AI 模型

FLUX.1 的发布距 Stability AI 在 6 月中旬发布问题重重的 Stable Diffusion 3 Medium 约七周。Stability AI 的产品因在生成人体解剖结构方面的表现不佳而受到图像合成爱好者的广泛批评。

Black Forest Labs 发布了三个 FLUX.1 文本转图像模型:高端商业“专业”版本、适用于非商业用途的开放权重“开发”版本,以及更快的开放权重“schnell”版本。Black Forest Labs 声称其模型在图像质量和遵循文本提示等方面优于现有的 Midjourney 和 DALL- E 等选项。

FLUX.1 模型采用了公司所谓的“混合架构”,结合了 transformer 和扩散技术,扩大到 120 亿参数。Black Forest Labs 表示,通过结合流匹配和其他优化,它改进了之前的扩散模型。

FLUX.1 在生成人类手部方面似乎很擅长,这是早期图像合成模型的弱点。自那时起,其他 AI 图像生成器如 Midjourney 也掌握了手部生成,但看到一个开放权重的模型在各种姿势中相对准确地渲染手部仍然值得注意。

Black Forest Labs 虽然是一家新公司,但已经吸引了投资者的注意。它最近关闭了由 Andreessen Horowitz 领投的 3100 万美元种子轮融资,General Catalyst 和 MätchVC 也参与了投资。

“我们相信生成式 AI 将成为未来所有技术的基本构建块,”公司在公告中表示。“通过向广大受众提供我们的模型,我们希望让每个人都能受益,教育公众并增强对这些模型安全性的信任。”

尽管文本转图像生成是 Black Forest 目前的重点,但该公司计划扩展到视频生成领域,表示 FLUX.1 将成为正在开发的新文本转视频模型的基础,该模型将与 OpenAI 的 Sora、Runway 的 Gen-3 Alpha 和 Kuaishou 的 Kling 竞争,以按需扭曲媒体现实。

正文完
 0
admin-gah
版权声明:本文于2024-08-03转载自Ars Technica,共计901字。
转载提示:此文章非本站原创文章,若需转载请联系原作者获得转载授权。
评论(没有评论)
验证码