Kolors 可图大模型

可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。Kolors 在数十亿图文对下进行训练,在视觉质量、复杂语义理解、文字生成(中英文字符)等方面,相比于开源/闭源模型,都展示出了巨大的优势。同时,Kolors 支持中英双语,在中文特色内容理解方面更具竞争力。

想要运行这个应用吗?

  • 帮助您专注于艺术创作,而非红色错误
  • 由猫目社区来维护AIGC安装部署的复杂性
  • 无需手动设置
  • 具有惊艳的视觉效果
  • 平台整合上万张高端显卡,一键启动

📖 模型介绍

可图大模型是由快手可图团队开发的基于潜在扩散的大规模文本到图像生成模型。Kolors 在数十亿图文对下进行训练,在视觉质量、复杂语义理解、文字生成(中英文字符)等方面,相比于开源/闭源模型,都展示出了巨大的优势。同时,Kolors 支持中英双语,在中文特色内容理解方面更具竞争力。更多的实验结果和细节请查看我们的技术报告


📊 评测表现

为了全面比较 Kolors 与其他模型的生成能力,我们构建了包含人工评估、机器评估的全面评测内容。
在相关基准评测中,Kolors 具有非常有竞争力的表现,达到业界领先水平。我们构建了一个包含14种垂类,12个挑战项,总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上,我们收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。


人工评测

我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,为生成图像打分,衡量维度为:画面质量、图文相关性、整体满意度三个方面。
Kolors 在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。


模型整体满意度平均分画面质量平均分图文相关性平均分
Adobe-Firefly3.033.463.84
Stable Diffusion 33.263.504.20
DALL-E 33.323.544.22
Midjourney-v53.323.684.02
Playground-v2.53.373.734.04
Midjourney-v63.583.924.18
Kolors3.593.994.17


所有模型结果取自 2024.04 的产品版本


机器评测

我们采用 MPS (Multi-dimensional Human preference Score) 来评估上述模型。
我们以 KolorsPrompts 作为基础评估数据集,计算多个模型的 MPS 指标。Kolors 实现了最高的MPS 指标,这与人工评估的指标一致。


模型MPS综合得分
Adobe-Firefly8.5
Stable Diffusion 38.9
DALL-E 39.0
Midjourney-v59.4
Playground-v2.59.8
Midjourney-v610.2
Kolors10.3


更多的实验结果和细节请查看我们的技术报告。点击技术报告

🎥 可视化

  • 高质量人像


  • 中国元素


  • 复杂语义理解

  • 文字绘制


上述可视化 case,可以点击可视化prompts 获取


📜协议

协议

Kolors(可图)权重对学术研究完全开放,若您期望基于本模型协议的许可条件与限制,将可图KOLORS模型或其衍生品用作商业目的,请您将问卷发送至邮箱kwai-kolors@kuaishou.com,以向许可方登记。若您提供的所有产品或服务的月活跃用户数在前一个自然月未超过3亿月活跃用户数,则您向许可方进行登记,将被视为获得相应的商业许可;若您提供的所有产品或服务的月活跃用户数在前一个自然月超过3亿月活跃用户数,则您必须向许可人申请许可,许可人可自行决定向您授予许可。

本开源模型旨在与开源社区共同推进文生图大模型技术的发展。本项目代码依照 Apache-2.0 协议开源,模型权重需要遵循本《模型许可协议》,我们恳请所有开发者和用户严格遵守开源协议,避免将开源模型、代码及其衍生物用于任何可能对国家和社会造成危害的用途,或用于任何未经安全评估和备案的服务。需要注意,尽管模型在训练中我们尽力确保数据的合规性、准确性和安全性,但由于视觉生成模型存在生成多样性和可组合性等特点,以及生成模型受概率随机性因素的影响,模型无法保证输出内容的准确性和安全性,且模型易被误导。本项目不对因使用开源模型和代码而导致的任何数据安全问题、舆情风险或因模型被误导、滥用、传播、不当利用而产生的风险和责任承担任何法律责任。