Stable Diffusion系モデル比較|SDXL・SD3・Flux・z-image-turboの違い

Stable Diffusion系モデル比較|SDXL・SD3・Flux・z-image-turboの違い

AI画像生成を始めるとき、最初にぶつかるのが「どのモデルを使えばいいのか」という問題です。

Stable Diffusion系だけでも複数のモデルが存在し、それぞれ得意分野や制約が異なります。モデル選びを間違えると、求める画風が出せなかったり、不要な制限に悩まされたりすることになります。

この記事では、現在利用可能な主要モデルの特徴を整理し、用途別のおすすめを紹介します。

各モデルの概要と特徴

SD 1.5(Stable Diffusion 1.5)

2022年リリースの初期モデルです。現在では性能面で後発モデルに劣りますが、LoRAやCheckpointの蓄積が圧倒的に多いという強みがあります。

  • ネイティブ解像度: 512×512
  • 必要VRAM: 4GB〜
  • 膨大なコミュニティリソース(LoRA・マージモデル・Embedding)が利用可能
  • 低スペックGPUでも動作する軽量さ

特定の画風を再現するためのLoRAが豊富に公開されているため、目的のLoRAがSD 1.5向けにしか存在しない場合は、依然として選択肢に入ります。

SDXL(Stable Diffusion XL)

2023年リリース。SD 1.5の後継として高解像度対応と画質向上を実現しました。LoRAの蓄積とツール対応の広さから、依然として広く使われているモデルです。

  • ネイティブ解像度: 1024×1024
  • 必要VRAM: 8GB〜
  • SD 1.5より大幅に向上したテキスト理解力
  • SDXL向けLoRAも増加中

商用利用可能なオープンライセンスで、ComfyUIやAutomatic1111など主要なUIツールすべてで対応しています。汎用性の高さから、迷ったらまずSDXLを選ぶのが無難です。

SD3 / SD3.5(Stable Diffusion 3)

2024年にStability AIがリリースした次世代モデルです。トリプルテキストエンコーダ(CLIP ×2 + T5)を採用し、テキスト理解力が大きく向上しました。

  • ネイティブ解像度: 1024×1024
  • 必要VRAM: 12GB〜(SD3.5 Mediumは8GB〜)
  • 画像内テキスト描画の精度が向上
  • SD3.5ではMedium・Large・Large Turboの3バリエーション

テキスト描画を含むデザイン系の用途に強みがありますが、LoRAなどのコミュニティリソースはSDXLに比べるとまだ少ない状況です。ライセンスはStability AI Community Licenseで、年間収益100万ドル未満であれば商用利用も無料です。

Flux(Black Forest Labs)

Stable Diffusionの原著者らが設立したBlack Forest Labsによるモデルです。画像品質の高さが特徴で、特にリアルな写真風の画像生成に優れています。

  • ネイティブ解像度: 1024×1024(任意アスペクト比対応)
  • 必要VRAM: 12GB〜(Flux.1 devの場合)
  • dev(モデル自体は非商用ライセンスだが、生成画像は商用利用可)・schnell(高速版、Apache 2.0)・pro(API限定)の3バリエーション

高いプロンプト追従性と自然な画質を持ちますが、VRAM消費が大きい点と、NSFW生成には制限がかかっている点に注意が必要です。

z-image-turbo

NSFW対応高速生成を両立するモデルです。わずか8ステップで高品質な画像を生成できるため、プロンプトの試行錯誤を高速に回せます。

  • ネイティブ解像度: 1024×1024
  • 必要VRAM: 8GB〜
  • 8ステップで生成完了(他モデルの1/3〜1/4)
  • NSFW制限なし
  • CFG=1.0のため、ネガティブプロンプトは機能しない

当ブログでは主にリアルな人物画像の生成に使用しており、NSFW用途では現状最も実用的な選択肢の一つです。詳しくはz-image-turboレビューをご覧ください。

モデル比較表

項目SD 1.5SDXLSD3.5Flux.1 devz-image-turbo
ネイティブ解像度512×5121024×10241024×10241024×10241024×1024
必要VRAM4GB〜8GB〜12GB〜12GB〜8GB〜
生成速度(目安)5〜15秒15〜30秒15〜30秒20〜40秒3〜5秒
必要ステップ数20〜3020〜3020〜3020〜308
NSFW対応LoRA次第LoRA次第制限あり制限あり対応
LoRA互換性非常に豊富豊富少ない増加中限定的
ライセンスCreativeML OpenRAIL MCreativeML Open RAIL++-MStability AI Community LicenseFLUX.1 [dev] Non-Commercial License独自

生成速度はRTX 4090で1024×1024の画像を1枚生成した場合の目安です。GPUの性能や設定により大きく変動します。

※ 参考値であり、使用ツール・解像度・バッチサイズ等により大きく異なります

用途別おすすめモデル

初心者が最初に使うなら → SDXL

LoRAやチュートリアルが豊富で、トラブル時に情報を見つけやすいSDXLが最も無難です。必要VRAMも8GBと手頃で、多くのGPUで動作します。

高品質な画像を追求するなら → Flux

写真のようなリアルな画像や、プロンプトへの正確な追従を求めるなら、Fluxはプロンプト追従性や質感表現で高い評価を得ています。ただし、VRAM 12GB以上のGPUが必要です。

NSFW画像を生成するなら → z-image-turbo

NSFW制限のないモデルを求めるなら、z-image-turboが最適です。高速生成により、試行錯誤のサイクルも短くて済みます。

特定のLoRAを使いたいなら → SD 1.5 / SDXL

使いたいLoRAがどのモデル向けかで決まります。SD 1.5向けLoRAしかない場合はSD 1.5、SDXL向けがあるならSDXLを選びましょう。

速度を最優先するなら → z-image-turbo

8ステップで生成が完了するz-image-turboは、プロンプト検証やバッチ生成で圧倒的な効率を発揮します。

まとめ

Stable Diffusion系モデルは、それぞれ異なる強みを持っています。

  • 汎用性重視: SDXL
  • 画質重視: Flux
  • NSFW・速度重視: z-image-turbo
  • LoRA資産活用: SD 1.5

「一つだけ選ぶならSDXL」が現時点での安全な選択ですが、用途が明確なら専用モデルを選んだほうが満足度は高くなります。

GPUの選び方やクラウド環境の構築については、クラウドGPU比較も参考にしてください。