AI画像生成モデルは数多く存在しますが、z-image-turboは「高速性」と「NSFW対応」という2つの強みで、特にリアルな人物画像の生成に最適なモデルです。
この記事では、z-image-turboを選ぶべき理由を他モデルとの比較を交えて解説します。
z-image-turboの特徴
1. 圧倒的な高速性
z-image-turboの最大の特徴は生成速度です。
以下はRTX 4090(VRAM 24GB)で1024×1024の画像を1枚生成した場合の目安です。
| モデル | 1枚あたりの生成時間(目安) | 必要ステップ数 |
|---|---|---|
| z-image-turbo | 約3〜5秒 | 8ステップ |
| SDXL | 15〜30秒 | 20〜30ステップ |
| Flux.1 dev | 20〜40秒 | 20〜30ステップ |
| Stable Diffusion 1.5 | 5〜15秒 | 20〜30ステップ |
GPUの性能や画像サイズによって生成時間は大きく変わります。VRAM 8GBクラスのGPUでは上記の2〜5倍程度の時間がかかります。
わずか8ステップで高品質な画像が生成できるため、プロンプトの試行錯誤を高速に回せます。
「プロンプトを少し変えて試す」を繰り返す作業では、1枚3秒と1枚30秒では体験が全く異なります。10回試行すれば30秒 vs 5分の差になります。
2. NSFW画像の生成に対応
NSFW(Not Safe For Work)画像を生成したい場合、まずクラウドサービスかローカル実行かという選択があります。
DALL-E 3(OpenAI)やMidjourneyなどのクラウドサービスは、利用規約でNSFWコンテンツの生成を禁止しています。そのため、NSFWコンテンツを生成するにはローカルPCまたはクラウドGPU上で自分でモデルを動かす必要があります。
次に、ローカル実行できるモデルの中でも、NSFW対応はモデルによって異なります。
| 区分 | サービス/モデル | NSFW対応 |
|---|---|---|
| クラウドサービス | DALL-E 3 (OpenAI) | 完全に禁止 |
| クラウドサービス | Midjourney | 禁止 |
| ローカル実行モデル | z-image-turbo | 制限なし |
| ローカル実行モデル | Stable Diffusion (公式) | モデルによる(ライセンスに制約あり) |
| ローカル実行モデル | Flux.1 schnell | セーフティフィルター付き |
z-image-turboはセーフティフィルターが入っておらず、ライセンス(Apache 2.0)にもNSFWに関する明示的な禁止規定がないため、表現の自由度が高いのが特徴です。リアルな人物画像からアート作品まで幅広く対応できます。
3. リアルな日本人女性の描写が得意
z-image-turboは写実的な人物画像、特にアジア人女性の描写に優れています。出力画像において自然な肌の質感と日本人的な顔立ちが安定して生成され、髪の毛の描写や表情の表現も得意です。
AI画像生成モデルの系譜
z-image-turboを理解するために、まずAI画像生成モデルの系譜を整理しましょう。
Stable Diffusion系(LDM系)
Latent Diffusion Models(LDM)をベースとしたモデル群です。
2022年 Stable Diffusion 1.x ← LDM論文(Rombach et al.)
↓ U-Net + CLIP + VAE
2023年 Stable Diffusion 2.x ← OpenCLIPに変更
↓
2023年 SDXL ← U-Net大型化 + CLIP×2デュアルエンコーダ
↓
2024年 Stable Diffusion 3 ← MMDiT(Transformerベース)に移行
技術的特徴:
- U-Netでノイズ除去(SD 1.x〜SDXL)
- CLIPテキストエンコーダでプロンプトをベクトル化
- Classifier-Free Diffusion Guidance (CFG)でテキスト追従度を制御
- 潜在空間(Latent Space)で拡散過程を実行
Flux系
Stable Diffusionの著者陣(Robin Rombach, Andreas Blattmann, Patrick Esser)がBlack Forest Labsを設立し、2024年に発表した次世代モデルです。
2024年 FLUX.1 [pro] ← API専用、最高品質
FLUX.1 [dev] ← 非商用、ガイダンス蒸留
FLUX.1 [schnell] ← Apache-2.0、タイムステップ蒸留(4ステップ)
SD系からの主な技術的進化:
| 要素 | Stable Diffusion (1.x〜SDXL) | FLUX.1 |
|---|---|---|
| ノイズ除去器 | U-Net(CNN) | MMDiT(Transformer) |
| テキストエンコーダ | CLIPのみ | CLIP + T5(デュアル) |
| 拡散手法 | Diffusion(DDPM) | Flow Matching |
| パラメータ数 | 〜2.6B(SDXL) | 12B |
| テキスト理解 | 75トークン制限 | 512トークン対応 |
Flow Matchingは従来のDiffusionプロセスの改良版で、ノイズからクリーンな画像への経路をより効率的に学習します。Diffusionが「ランダムウォーク」なら、Flow Matchingは「直線に近い最短経路」を学習するイメージです。
T5テキストエンコーダの追加により、CLIPの75トークン制限を超えた長文プロンプトの理解が可能になりました。
z-image-turboの位置づけ
z-image-turboは6Bパラメータの写実特化モデルで、以下のような特徴があります:
- 8ステップで高品質生成が可能な蒸留モデル
- CFG=1.0で動作(ガイダンスがモデルに内蔵されている)
- NSFW制限なし
- 英語・中国語対応
- リファレンス画像ガイダンス対応(Z-Image Base)
蒸留(Distillation)とは、大きなモデルの知識をコンパクトなモデルに転写する技術です。z-image-turboが8ステップで済むのは、元のモデルの推論能力が蒸留によって圧縮されているためです。Flux.1 schnellが4ステップで動作するのも同じ原理です。
モデル選択の指針
「とりあえず写実的な画像を高速に生成したい」
→ z-image-turbo(8ステップ、NSFW対応)
「最高画質を追求したい」
→ FLUX.1 dev(50ステップ、12Bパラメータ)
「オープンソースで自由にカスタマイズしたい」
→ SDXL(豊富なLoRA/FineTuneエコシステム)
「ローカルで軽量に動かしたい」
→ SD 1.5系(低VRAM対応)
他モデルとの総合比較
基本性能
| 比較項目 | z-image-turbo | SDXL | Flux.1 dev | SD 1.5 |
|---|---|---|---|---|
| 生成速度 | ◎(8ステップ) | △(20-30ステップ) | △(50ステップ) | ○(20-30ステップ) |
| 画質 | ○ | ◎ | ◎ | △ |
| NSFW対応 | ◎ | ○(モデルによる) | △(ライセンス制限) | ○(モデルによる) |
| リアル人物 | ◎ | ○ | ○ | △ |
| 必要VRAM | 中 | 高(6GB〜) | 非常に高(〜50GB) | 低(4GB〜) |
| パラメータ数 | 6B | 2.6B | 12B | 0.9B |
アーキテクチャ
| 比較項目 | z-image-turbo | SDXL | Flux.1 dev | SD 1.5 |
|---|---|---|---|---|
| テキストエンコーダ | — | CLIP×2 | CLIP + T5 | CLIP |
| ノイズ除去器 | — | U-Net | MMDiT | U-Net |
| 拡散手法 | — | Diffusion | Flow Matching | Diffusion |
| ComfyUI対応 | ◎ | ◎ | ◎ | ◎ |
| LoRAエコシステム | 少ない | ◎(非常に豊富) | 増加中 | ◎(非常に豊富) |
ネガティブプロンプト・img2img対応
ここがモデル選択において見落とされがちだが重要なポイントです。
| 機能 | z-image-turbo | SDXL | Flux.1 dev | Flux.1 schnell | SD 1.5 |
|---|---|---|---|---|---|
| ネガティブプロンプト | △(後述) | ◎ | △(後述) | × | ◎ |
| img2img | ×(CLI非対応) | ◎ | ◎ | ◎ | ◎ |
| Inpainting | × | ◎ | ◎(Fill) | ◎(Fill) | ◎ |
| ControlNet | × | ◎ | ○(Canny, Depth) | ○ | ◎ |
ネガティブプロンプトの対応状況
ネガティブプロンプトはClassifier-Free Diffusion Guidance (CFG)の仕組みに基づいています。CFGが機能するためには、モデルが条件付き予測と無条件予測の両方を行える必要があります。
SD 1.5 / SDXL: 完全対応
従来のCFGを使用(guidance_scale = 7〜12程度)。ネガティブプロンプトがunconditional predictionの代わりに使われ、明確に効果を発揮します。SD系でネガティブプロンプトが最も効果的に機能するのは、このCFGの仕組みが素直に動作するためです。
Flux.1 dev: 限定的
Flux.1 devは「ガイダンス蒸留」されたモデルで、CFGが蒸留によってモデル内部に埋め込まれています(guidance_scale=3.5)。標準的なネガティブプロンプトは基本的に機能しません。ただしdiffusersのtrue_cfg_scaleパラメータを使うと、従来型のCFGを強制適用でき、ネガティブプロンプトが機能するようになります(推論コストが2倍になる)。
Flux.1 schnell: 非対応
タイムステップ蒸留によりguidance_scale=0で動作するモデルのため、CFGの仕組み自体が使えません。ネガティブプロンプトは効果がありません。
z-image-turbo: CFG=1.0のため機能しない
z-image-turboはCFG=1.0で動作するように設計されています。CFG=1.0は「ガイダンスなし」を意味するため、ネガティブプロンプトは機能しません。ComfyUIのワークフローでネガティブプロンプト欄を設定することは可能ですが、出力に影響を与えないことを確認しています。
img2img(画像→画像変換)の対応状況
img2img(既存画像をベースに新しい画像を生成する機能)は、初期ノイズとしてランダムノイズではなく入力画像に少量のノイズを加えたものを使うことで実現されます。
SD 1.5 / SDXL: 完全対応
denoiseパラメータ(0.0〜1.0)で元画像からの変化度を制御できます。denoise=0.3なら元画像に近い出力、denoise=0.8ならほぼ新規生成。ControlNet(Canny、Depth、OpenPose等)と組み合わせた精密な制御も可能です。
Flux.1: 対応
Flux.1 Fill(Inpainting)、Flux.1 Canny(構造制御)、Flux.1 Depth(深度制御)、Flux.1 Redux(画像変換)、Flux.1 Kontext(画像編集)など、タスク特化の派生モデルとして提供されています。
z-image-turbo: 非対応(txt2imgのみ)
z-image-turboはテキストから画像の生成(txt2img)のみ対応しています。img2img、Inpainting、ControlNetは利用できません。
モデル選択の総合ガイド
上記の機能差を踏まえると:
「高速にtxt2imgでリアル画像を量産したい」
→ z-image-turbo(速度・NSFW対応で最強)
「ネガティブプロンプトを活用して品質を追い込みたい」
→ SDXL(CFGが最もよく効く)
「既存画像の修正・加工をしたい(img2img, Inpainting)」
→ SDXL or Flux.1 Fill(z-image-turboは非対応)
「ControlNetでポーズや構図を制御したい」
→ SDXL(エコシステムが最も充実)or Flux.1 Canny/Depth
「長文プロンプトで細かい指示を出したい」
→ Flux.1 dev(T5エンコーダで512トークン対応)
「最高画質を追求したい」
→ Flux.1 dev(12Bパラメータ、ただしVRAM〜50GB必要)
「ローカルで軽量に動かしたい」
→ SD 1.5系(4GB VRAM〜、LoRA豊富)
総合的に、z-image-turboは「txt2imgの高速生成」「NSFW対応」「リアル人物」に特化した選択肢です。 img2imgやControlNetが必要な場合はSDXLやFlux.1を併用することになります。
ライセンス・商用利用・性的コンテンツ
モデルを利用する上でライセンスの確認は必須です。「商用利用OK」「NSFW制限なし」「ネガティブプロンプト対応」の3要件を同時に満たすモデルは、実は非常に少ないのが現状です。
要件を満たすモデル
| モデル | ライセンス | 商用 | NSFW制限 | ネガプロ | img2img | 備考 |
|---|---|---|---|---|---|---|
| Z-Image (full) | Apache 2.0 | ◎ | 明示なし | ◎ | 未確認 | 当ブログ推奨。CFG 3.0〜5.0、28〜50ステップ |
| Z-Image Turbo | Apache 2.0 | ◎ | 明示なし | △(CFG=1.0) | × | 高速版。8ステップ |
| Kolors(快手) | Apache 2.0 + 登録 | △(登録制) | 曖昧 | ◎ | ◎ | 商用利用に申請が必要。UNet + ChatGLM3 |
Z-Image (full) は当ブログで使用しているZ-Image Turboと同じモデルファミリーのフルバージョンです。Turboが蒸留による8ステップ高速生成に特化しているのに対し、fullバージョンはCFG 3.0〜5.0で28〜50ステップの推論を行い、ネガティブプロンプトが完全に機能します。
要件を満たさないモデル
主要モデルを調査した結果、以下のモデルは3要件のいずれかを満たしません。
| モデル | 不適格理由 |
|---|---|
| SDXL | CreativeML OpenRAIL++-M。商用は許可だがNSFW制限の解釈に曖昧さあり |
| SD 1.5 | CreativeML OpenRAIL-M。「同意なしの性的コンテンツ」禁止 |
| SD 3.5 | 売上制限あり、ネガティブプロンプトは部分的のみ |
| SDXL Turbo | 非商用ライセンス、ネガティブプロンプト非対応 |
| FLUX.1 dev | 非商用ライセンス(有料契約必要)、NSFW制限・フィルター実装義務あり |
| FLUX.1 schnell | ネガティブプロンプト非対応(CFG=0蒸留モデル) |
| FLUX.2 klein 4B | ネガティブプロンプト非対応 |
| Qwen-Image | ネガティブプロンプト実質非対応 |
ライセンス比較表
| 項目 | Z-Image | SD 1.5 | SDXL | Flux.1 dev | Flux.1 schnell |
|---|---|---|---|---|---|
| ライセンス | Apache 2.0 | OpenRAIL-M | OpenRAIL++-M | Non-Commercial | Apache 2.0 |
| 商用利用 | ◎ | ◎ | ◎ | × | ◎ |
| NSFW制限 | なし | △ | △ | ×(フィルター義務) | △ |
| ネガプロ | ◎(full)/ △(turbo) | ◎ | ◎ | △(true_cfgで可能) | × |
| 未成年コンテンツ | 厳禁 | 厳禁 | 厳禁 | 厳禁 | 厳禁 |
全モデル共通: 未成年者に関する性的コンテンツの生成は、ライセンスに関係なく法律で厳格に禁止されています。
当ブログの選択
当ブログではZ-Imageファミリーを推奨しています:
- 高速に量産したい場合 → Z-Image Turbo(8ステップ、ネガプロは限定的)
- 品質を追い込みたい場合 → Z-Image full(28〜50ステップ、ネガプロ完全対応)
どちらもApache 2.0ライセンスで商用利用に制限がなく、NSFWコンテンツに関する明示的な禁止規定もありません。
免責事項: ライセンスの解釈は法的助言ではありません。商用利用の際は各ライセンスの全文を確認し、必要に応じて法律の専門家にご相談ください。各国の法律(わいせつ物頒布罪、児童ポルノ禁止法等)は常に遵守してください。
z-image-turboの使い方
z-image-turboを使う方法は主に3つあります。
方法1: ConoHa AI Canvas(初心者おすすめ)
ブラウザだけで使える国産サービスです。環境構築不要で、すぐにz-image-turboの画像生成を始められます。
- 月額990円〜
- ComfyUIが使える
- 日本語UI
詳しいセットアップ方法はConoHa AI Canvasの始め方ガイドをご覧ください。
方法2: ComfyUIワークフローを使う
ComfyUIを使えば、z-image-turboの全パラメータを細かく制御できます。ネガティブプロンプト設定済みのワークフローを配布しています。
👉 z-image-turbo ComfyUIワークフロー配布
方法3: RunPod Serverless(上級者向け)
APIベースで大量生成や自動化を行いたい上級者には、RunPod Serverlessでの構築がおすすめです。
詳しくはRunPod Serverlessでz-image-turboを動かす完全ガイドをご覧ください。
プロンプトのコツ
z-image-turboで良い画像を生成するには、プロンプトの書き方が重要です。
基本的な法則として:
- 語順が重要 — 先頭に書いた要素が最も強く反映される
- 強調構文 —
(要素:1.3)で特定の要素を強調できる - ネガティブプロンプト — 不要な要素を排除して品質を上げる
詳しくはプロンプトの基本法則で解説しています。
生成コスト
z-image-turboは高速なため、1枚あたりのコストが低いのも魅力です。
ConoHa AI Canvasの場合
| プラン | 月額 | 枚数 | 1枚あたり |
|---|---|---|---|
| エントリー | 990円 | 500枚 | 約2円 |
| スタンダード | 1,980円 | 1,500枚 | 約1.3円 |
RunPod Serverlessの場合
GPU時間ベースの課金で、z-image-turboは8ステップで生成できるため:
- 1枚あたり約0.5〜1.5円(GPU、インスタンスサイズによる)
- 大量生成に向いている
コストの詳しい比較はクラウドGPU比較記事をご覧ください。
まとめ
z-image-turboを選ぶ理由:
- 高速 — 8ステップ、約3〜5秒で生成。試行錯誤を高速に回せる
- NSFW対応 — セーフティフィルターなしで表現の自由度が高い
- リアルな人物描写 — 日本人女性の描写が特に得意
- 低コスト — 速度が速い = GPU時間が短い = コストが低い
次のステップ
- すぐに試したい → ConoHa AI Canvasで始める
- ワークフローが欲しい → ComfyUIワークフロー配布
- プロンプトを学びたい → プロンプトの基本法則
- 自分で環境を作りたい → RunPod Serverlessガイド
参考リンク
- z-image-turbo 公式サイト — モデルの公式ドキュメント・ダウンロード
- ComfyUI 公式リポジトリ — ノードベースのStable Diffusion UI
- RunPod 公式サイト — クラウドGPUプラットフォーム
- RunPod ドキュメント — Serverless APIの公式ドキュメント
- ConoHa AI Canvas 公式サイト — 国産AI画像生成サービス






