Stable Diffusion系モデル比較｜SDXL・SD3・Flux・z-image-turboの違い

AI画像生成を始めるとき、最初にぶつかるのが「どのモデルを使えばいいのか」という問題です。

Stable Diffusion系だけでも複数のモデルが存在し、それぞれ得意分野や制約が異なります。モデル選びを間違えると、求める画風が出せなかったり、不要な制限に悩まされたりすることになります。

この記事では、現在利用可能な主要モデルの特徴を整理し、用途別のおすすめを紹介します。

各モデルの概要と特徴

SD 1.5（Stable Diffusion 1.5）

2022年リリースの初期モデルです。現在では性能面で後発モデルに劣りますが、LoRAやCheckpointの蓄積が圧倒的に多いという強みがあります。

ネイティブ解像度: 512×512
必要VRAM: 4GB〜
膨大なコミュニティリソース（LoRA・マージモデル・Embedding）が利用可能
低スペックGPUでも動作する軽量さ

特定の画風を再現するためのLoRAが豊富に公開されているため、目的のLoRAがSD 1.5向けにしか存在しない場合は、依然として選択肢に入ります。

SDXL（Stable Diffusion XL）

2023年リリース。SD 1.5の後継として高解像度対応と画質向上を実現しました。LoRAの蓄積とツール対応の広さから、依然として広く使われているモデルです。

ネイティブ解像度: 1024×1024
必要VRAM: 8GB〜
SD 1.5より大幅に向上したテキスト理解力
SDXL向けLoRAも増加中

商用利用可能なオープンライセンスで、ComfyUIやAutomatic1111など主要なUIツールすべてで対応しています。汎用性の高さから、迷ったらまずSDXLを選ぶのが無難です。

SD3 / SD3.5（Stable Diffusion 3）

2024年にStability AIがリリースした次世代モデルです。トリプルテキストエンコーダ（CLIP ×2 + T5）を採用し、テキスト理解力が大きく向上しました。

ネイティブ解像度: 1024×1024
必要VRAM: 12GB〜（SD3.5 Mediumは8GB〜）
画像内テキスト描画の精度が向上
SD3.5ではMedium・Large・Large Turboの3バリエーション

テキスト描画を含むデザイン系の用途に強みがありますが、LoRAなどのコミュニティリソースはSDXLに比べるとまだ少ない状況です。ライセンスはStability AI Community Licenseで、年間収益100万ドル未満であれば商用利用も無料です。

Flux（Black Forest Labs）

Stable Diffusionの原著者らが設立したBlack Forest Labsによるモデルです。画像品質の高さが特徴で、特にリアルな写真風の画像生成に優れています。

ネイティブ解像度: 1024×1024（任意アスペクト比対応）
必要VRAM: 12GB〜（Flux.1 devの場合）
dev（モデル自体は非商用ライセンスだが、生成画像は商用利用可）・schnell（高速版、Apache 2.0）・pro（API限定）の3バリエーション

高いプロンプト追従性と自然な画質を持ちますが、VRAM消費が大きい点と、NSFW生成には制限がかかっている点に注意が必要です。

z-image-turbo

NSFW対応と高速生成を両立するモデルです。わずか8ステップで高品質な画像を生成できるため、プロンプトの試行錯誤を高速に回せます。

ネイティブ解像度: 1024×1024
必要VRAM: 8GB〜
8ステップで生成完了（他モデルの1/3〜1/4）
NSFW制限なし
CFG=1.0のため、ネガティブプロンプトは機能しない

当ブログでは主にリアルな人物画像の生成に使用しており、NSFW用途では現状最も実用的な選択肢の一つです。詳しくはz-image-turboレビューをご覧ください。

モデル比較表

項目	SD 1.5	SDXL	SD3.5	Flux.1 dev	z-image-turbo
ネイティブ解像度	512×512	1024×1024	1024×1024	1024×1024	1024×1024
必要VRAM	4GB〜	8GB〜	12GB〜	12GB〜	8GB〜
生成速度（目安）	5〜15秒	15〜30秒	15〜30秒	20〜40秒	3〜5秒
必要ステップ数	20〜30	20〜30	20〜30	20〜30	8
NSFW対応	LoRA次第	LoRA次第	制限あり	制限あり	対応
LoRA互換性	非常に豊富	豊富	少ない	増加中	限定的
ライセンス	CreativeML OpenRAIL M	CreativeML Open RAIL++-M	Stability AI Community License	FLUX.1 [dev] Non-Commercial License	独自

生成速度はRTX 4090で1024×1024の画像を1枚生成した場合の目安です。GPUの性能や設定により大きく変動します。
※ 参考値であり、使用ツール・解像度・バッチサイズ等により大きく異なります

用途別おすすめモデル

初心者が最初に使うなら → SDXL

LoRAやチュートリアルが豊富で、トラブル時に情報を見つけやすいSDXLが最も無難です。必要VRAMも8GBと手頃で、多くのGPUで動作します。

高品質な画像を追求するなら → Flux

写真のようなリアルな画像や、プロンプトへの正確な追従を求めるなら、Fluxはプロンプト追従性や質感表現で高い評価を得ています。ただし、VRAM 12GB以上のGPUが必要です。

NSFW画像を生成するなら → z-image-turbo

NSFW制限のないモデルを求めるなら、z-image-turboが最適です。高速生成により、試行錯誤のサイクルも短くて済みます。

特定のLoRAを使いたいなら → SD 1.5 / SDXL

使いたいLoRAがどのモデル向けかで決まります。SD 1.5向けLoRAしかない場合はSD 1.5、SDXL向けがあるならSDXLを選びましょう。

速度を最優先するなら → z-image-turbo

8ステップで生成が完了するz-image-turboは、プロンプト検証やバッチ生成で圧倒的な効率を発揮します。

まとめ

Stable Diffusion系モデルは、それぞれ異なる強みを持っています。

汎用性重視: SDXL
画質重視: Flux
NSFW・速度重視: z-image-turbo
LoRA資産活用: SD 1.5

「一つだけ選ぶならSDXL」が現時点での安全な選択ですが、用途が明確なら専用モデルを選んだほうが満足度は高くなります。

GPUの選び方やクラウド環境の構築については、クラウドGPU比較も参考にしてください。