Illustrious,一个基于Stable Diffusion XL的文本到图像模型,在AI艺术领域迅速崛起。在短短三个月内,它成为了Civitai这一最大的AI艺术模型平台上不可或缺的一部分,拥有专门的分类来容纳其丰富的资源。
其成功的关键在于回归基础并加以创新。不同于SD 3.5和Flux等依赖于长篇自然语言描述的新模型,Illustrious由Onoma AI开发,通过利用Danbooru标签系统来帮助模型理解概念,无需复杂的字幕系统。
该模型基于Danbooru庞大的标记动漫图像库进行训练,使其在视觉概念的理解上具有显著优势。每个Danbooru标签代表特定元素,如角色特征、服装项目、姿势或背景,从而实现对生成图像的精确控制。
这些标签多年来已被广泛应用于艺术和动漫爱好者的图像分类中。Illustrious不仅在理解照片特征方面高度准确,而且高效。
“这就像有一位艺术家,完全明白你想要什么,而不需要冗长的文字说明,”一位参与NSFW AI内容服务器的Discord成员Vishnu告诉Decrypt,“你只需要知道正确的标签。”
Illustrious的核心采用了经典的SDXL架构,结合了CLIP ViT-L和OpenCLIP ViT-bigG的复杂双编码器系统,以理解和关联单词与视觉表达。该模型能够处理和生成高达1536×1536分辨率的图像,并可扩展至2048×2048甚至3744x3744而不显著降低质量。
In-Depth Exploration
创建Illustrious的过程是经过深思熟虑且有条不紊的。初始训练阶段产生了v0.1版本,处理了750万张1024×1024分辨率的图像。团队精心调整学习率,运行了20个周期,为后续版本奠定了坚实基础。
v1.0版本将数据集扩展到1000万张图像,并将分辨率提升至1536×1536。尽管批次大小减少到128,但引入了复杂的标签操作策略和注册标记,进一步提升了模型性能。
v2.0最终优化阶段使用了2000万张高分辨率图像,并采用了多字幕方法,大大改善了文本与图像的匹配度。结果是一款出色的二次元美少女生成器,具备良好的微调能力、提示遵循性、美学质量和输出效果。
Using Illustrious
Illustrious的安装过程与其他SDXL模型相同。下载检查点并放置在相应文件夹中。
Windows and Linux
- 对于ComfyUI,路径是\models\checkpoints。
- 对于A1111/Forge,路径是/models/Stable-diffusion。
- 对于Fooocus,路径也是\models\checkpoints。
MacOS
Mac用户路径类似,但一些面向macOS的UI需要额外步骤。
- Draw Things用户需点击“模型”,进入“自定义”,然后点击“导入模型”。
- Diffusion Bee用户需点击右上角的汉堡图标,选择“设置”,然后点击“添加新模型”。
加载模型后,请记住以下几点:
- 不要使用自然语言,坚持使用Danbooru标签和旧的SDXL提示风格。
- 避免使用Pony LoRas,建议使用Illustrious Loras。
- 尽量选择最受欢迎的微调版本,而非原始模型。
Top Choices for Illustrious Models
有许多模型可供选择,各具特色。以下是针对不同需求的最佳选择,它们在提示理解、输出质量和易用性方面表现出色。