AI画像生成を始めるとき、最初にぶつかるのが「どのモデルを使えばいいのか」という問題です。
Stable Diffusion系だけでも複数のモデルが存在し、それぞれ得意分野や制約が異なります。モデル選びを間違えると、求める画風が出せなかったり、不要な制限に悩まされたりすることになります。
この記事では、現在利用可能な主要モデルの特徴を整理し、用途別のおすすめを紹介します。
各モデルの概要と特徴
SD 1.5(Stable Diffusion 1.5)
2022年リリースの初期モデルです。現在では性能面で後発モデルに劣りますが、LoRAやCheckpointの蓄積が圧倒的に多いという強みがあります。
- ネイティブ解像度: 512×512
- 必要VRAM: 4GB〜
- 膨大なコミュニティリソース(LoRA・マージモデル・Embedding)が利用可能
- 低スペックGPUでも動作する軽量さ
特定の画風を再現するためのLoRAが豊富に公開されているため、目的のLoRAがSD 1.5向けにしか存在しない場合は、依然として選択肢に入ります。
SDXL(Stable Diffusion XL)
2023年リリース。SD 1.5の後継として高解像度対応と画質向上を実現しました。LoRAの蓄積とツール対応の広さから、依然として広く使われているモデルです。
- ネイティブ解像度: 1024×1024
- 必要VRAM: 8GB〜
- SD 1.5より大幅に向上したテキスト理解力
- SDXL向けLoRAも増加中
商用利用可能なオープンライセンスで、ComfyUIやAutomatic1111など主要なUIツールすべてで対応しています。汎用性の高さから、迷ったらまずSDXLを選ぶのが無難です。
SD3 / SD3.5(Stable Diffusion 3)
2024年にStability AIがリリースした次世代モデルです。トリプルテキストエンコーダ(CLIP ×2 + T5)を採用し、テキスト理解力が大きく向上しました。
- ネイティブ解像度: 1024×1024
- 必要VRAM: 12GB〜(SD3.5 Mediumは8GB〜)
- 画像内テキスト描画の精度が向上
- SD3.5ではMedium・Large・Large Turboの3バリエーション
テキスト描画を含むデザイン系の用途に強みがありますが、LoRAなどのコミュニティリソースはSDXLに比べるとまだ少ない状況です。ライセンスはStability AI Community Licenseで、年間収益100万ドル未満であれば商用利用も無料です。
Flux(Black Forest Labs)
Stable Diffusionの原著者らが設立したBlack Forest Labsによるモデルです。画像品質の高さが特徴で、特にリアルな写真風の画像生成に優れています。
- ネイティブ解像度: 1024×1024(任意アスペクト比対応)
- 必要VRAM: 12GB〜(Flux.1 devの場合)
- dev(モデル自体は非商用ライセンスだが、生成画像は商用利用可)・schnell(高速版、Apache 2.0)・pro(API限定)の3バリエーション
高いプロンプト追従性と自然な画質を持ちますが、VRAM消費が大きい点と、NSFW生成には制限がかかっている点に注意が必要です。
z-image-turbo
NSFW対応と高速生成を両立するモデルです。わずか8ステップで高品質な画像を生成できるため、プロンプトの試行錯誤を高速に回せます。
- ネイティブ解像度: 1024×1024
- 必要VRAM: 8GB〜
- 8ステップで生成完了(他モデルの1/3〜1/4)
- NSFW制限なし
- CFG=1.0のため、ネガティブプロンプトは機能しない
当ブログでは主にリアルな人物画像の生成に使用しており、NSFW用途では現状最も実用的な選択肢の一つです。詳しくはz-image-turboレビューをご覧ください。
モデル比較表
| 項目 | SD 1.5 | SDXL | SD3.5 | Flux.1 dev | z-image-turbo |
|---|---|---|---|---|---|
| ネイティブ解像度 | 512×512 | 1024×1024 | 1024×1024 | 1024×1024 | 1024×1024 |
| 必要VRAM | 4GB〜 | 8GB〜 | 12GB〜 | 12GB〜 | 8GB〜 |
| 生成速度(目安) | 5〜15秒 | 15〜30秒 | 15〜30秒 | 20〜40秒 | 3〜5秒 |
| 必要ステップ数 | 20〜30 | 20〜30 | 20〜30 | 20〜30 | 8 |
| NSFW対応 | LoRA次第 | LoRA次第 | 制限あり | 制限あり | 対応 |
| LoRA互換性 | 非常に豊富 | 豊富 | 少ない | 増加中 | 限定的 |
| ライセンス | CreativeML OpenRAIL M | CreativeML Open RAIL++-M | Stability AI Community License | FLUX.1 [dev] Non-Commercial License | 独自 |
生成速度はRTX 4090で1024×1024の画像を1枚生成した場合の目安です。GPUの性能や設定により大きく変動します。
※ 参考値であり、使用ツール・解像度・バッチサイズ等により大きく異なります
用途別おすすめモデル
初心者が最初に使うなら → SDXL
LoRAやチュートリアルが豊富で、トラブル時に情報を見つけやすいSDXLが最も無難です。必要VRAMも8GBと手頃で、多くのGPUで動作します。
高品質な画像を追求するなら → Flux
写真のようなリアルな画像や、プロンプトへの正確な追従を求めるなら、Fluxはプロンプト追従性や質感表現で高い評価を得ています。ただし、VRAM 12GB以上のGPUが必要です。
NSFW画像を生成するなら → z-image-turbo
NSFW制限のないモデルを求めるなら、z-image-turboが最適です。高速生成により、試行錯誤のサイクルも短くて済みます。
特定のLoRAを使いたいなら → SD 1.5 / SDXL
使いたいLoRAがどのモデル向けかで決まります。SD 1.5向けLoRAしかない場合はSD 1.5、SDXL向けがあるならSDXLを選びましょう。
速度を最優先するなら → z-image-turbo
8ステップで生成が完了するz-image-turboは、プロンプト検証やバッチ生成で圧倒的な効率を発揮します。
まとめ
Stable Diffusion系モデルは、それぞれ異なる強みを持っています。
- 汎用性重視: SDXL
- 画質重視: Flux
- NSFW・速度重視: z-image-turbo
- LoRA資産活用: SD 1.5
「一つだけ選ぶならSDXL」が現時点での安全な選択ですが、用途が明確なら専用モデルを選んだほうが満足度は高くなります。
GPUの選び方やクラウド環境の構築については、クラウドGPU比較も参考にしてください。






