【検証済み】画像生成プロンプトのベストプラクティス

【検証済み】画像生成プロンプトのベストプラクティス

本記事は、当ブログの各検証記事で画像を実際に比較して確認した結果を集約したものです。「よく言われているテクニック」ではなく、実験で裏付けられた知見のみを掲載しています。

対象モデル

本記事の知見は以下の環境で検証されたものです。他のモデルやパラメータでは必ずしも当てはまらない可能性があります。

項目
モデルz-image-turbo(6Bパラメータ、写実特化蒸留モデル)
推論ステップ8
サンプラーeuler
スケジューラーddim_uniform
CFG1.0(ガイダンスがモデルに内蔵)
画像サイズ1024×1024

効果が実証された要素

1. シーン描写タグが画像の主要因

small cafe window seat, natural overcast daylight through glass, sitting, looking out window のような具体的なシーン描写タグが、構図・ライティング・雰囲気を支配する最大の要因です。

冒頭の自然言語文(A candid iPhone snapshot of an actress in her everyday life)を丸ごと削除しても、シーン描写タグが残っていれば画像に目立った変化はありませんでした。

根拠: 職業プロンプト検証記事 実験2 E群

2. 先頭のスタイルキーワードが画像全体の方向性を決定

photorealisticanime illustration のようにスタイルキーワードを先頭に置くと、画像全体の方向性が完全に変わります。また、先頭の被写体指定(portrait vs cafe)は構図の寄り/引きに影響を与えます。

根拠: プロンプトの基本法則 実験1・3

3. ライティング記述は高い効果

golden hour warm light through windowbacklit by moonlight のようなライティング指定は、画像の雰囲気を劇的に変えます。

  • 蛍光灯的な白い光 → ゴールデンアワーの暖かい斜光(preset-verify-05)
  • 正面照明 → 逆光シルエット+リムライト(preset-verify-04)

いずれもStep間の差が非常に大きく、効果が明確でした。

根拠: 図書室エモ構図月明かりの海辺

4. 具体的なポーズ指定が手の自然な描写にも寄与

chin resting on hands のように手の位置を含むポーズを指定すると、そのポーズが再現されるだけでなく、手指の描写も自然になります。逆にポーズ指定を外すと、手が「何をしていいか分からない」状態になります。

根拠: 神プロンプト分解検証 テスト2-C

5. actress / model は顔の方向性を制御

actressmodel を使うと、CLIPの学習データに含まれる女優・モデルの整った顔写真の影響で、顔が華やかな方向になります。特定の方向性を求めないなら a woman で十分です。

根拠: 職業プロンプト検証記事 実験1

6. 環境描写で臨場感を追加

wet pavement reflections(濡れた路面の反射)のような環境要素は、ストリート写真の臨場感に直結します。路面反射の有無でStep間の差が顕著でした。

根拠: 雨の東京ネオン街

効果が否定された要素(トークン節約可)

以下の要素は、z-image-turboでは画像に目立った変化を与えないことが実験で確認されています。削除してトークンを節約できます。

品質系キーワード

要素節約トークン根拠
coherent anatomy, correct hands and fingers7coherent anatomy検証神プロンプト分解検証
RAW photo2プロンプト最適化10テーマ(※他要素が揃っている場合。単独での効果は未検証)
photorealistic1同上。z-image-turboはデフォルトで写実的
natural skin texture3同上

冗長な修飾

要素節約トークン根拠
in her everyday life4職業プロンプト検証 D群。後続のシーン描写と重複
冒頭の自然言語文全体5-10同記事 E群。シーン描写タグで十分
意味が重複する二重指定可変神プロンプト分解検証 テスト1-A,1-E
上位概念で暗示される要素(例: summer festival がある時の paper lantern warm light4同記事 テスト1-B

機材系キーワード

要素節約トークン根拠
カメラ機種名(shot on Canon EOS R5等)5-6ビキニプロンプト段階的改善
iPhone(スナップ感目的)1職業プロンプト検証 B群

強調構文 (要素:重み) の注意点

z-image-turboでは、(要素:1.4) のような重み付け構文による属性の強弱変化は確認されていません。表情・構図・ライティング・スタイル・被写体属性の5カテゴリ×3シードで検証した結果、いずれも1.0と1.4で視覚的な差は見られませんでした。

ただし、重み構文の括弧・コロン・数値がトークン列を変えるため、seed固定でも画像全体が変化します。これは重み値の効果ではなく、トークン列の変化による副作用です。

根拠: プロンプトの基本法則 実験2、強調構文カテゴリ別検証

トークン最適化の実践

CLIPは最大77トークン(実質75トークン + 開始/終了トークン)で1チャンクを処理します。2チャンク目は影響力が弱まるため、75トークン以内に収めるのが理想です。

最適化の優先順位

  1. まず不要な品質系キーワードを削除(coherent anatomy, RAW photo等)
  2. 冗長な修飾を削除(上位概念で暗示される要素、二重指定)
  3. 自然言語文をタグ列に圧縮A candid snapshot of an actressactress
  4. 機材系キーワードを削除(カメラ機種名)

実例: カフェスナップの最適化

最適化前(27語):

最適化前
A candid iPhone snapshot of an actress in her everyday life. 1girl, 22yo japanese woman, small cafe window seat, natural overcast daylight through glass, beige oversized knit sweater, sitting, looking out window, gentle natural expression.

最適化後(17語):

最適化後
1girl, 22yo japanese actress, small cafe window seat, natural overcast daylight through glass, beige oversized knit sweater, sitting, looking out window, gentle natural expression.

削除した要素: A candid iPhone snapshot of / in her everyday life — いずれも実験で効果が否定済み。

検証記事一覧

本記事の根拠となった検証記事の一覧です。

記事検証対象
プロンプトの基本法則語順、強調構文、スタイルキーワード
CLIPチャンク分割検証75トークン境界、矛盾する指示の優先順位
coherent anatomy検証手指の品質キーワードの効果
職業プロンプト検証職業ワード、冒頭文の要素別効果
神プロンプト分解検証3つの神プロンプトの要素別必要性
プロンプト最適化10テーマ品質キーワード、グラビア表現
ビキニプロンプト段階的改善カメラ機種名、段階的要素追加の効果
seed変動ベースライン同一プロンプトでのseed変動の範囲
タグ列 vs 自然言語文プロンプト形式の違いによる出力差
属性リーク検証色と対象の分離/隣接による影響

まとめ

z-image-turboでプロンプトを書く際の原則:

  1. シーン描写タグに注力する — 構図・環境・ポーズ・ライティングが画像品質の主要因
  2. スタイルと被写体を先頭に置く — 語順が構図に影響する
  3. 品質系・機材系キーワードは省略できる — z-image-turboはデフォルトで写実的
  4. 75トークン以内を目指す — 2チャンク目は影響力が弱い
  5. 冗長な修飾を避ける — 上位概念で暗示される要素は不要
  6. 色と対象は隣接させるred dressのように色と対象をひとまとまりで書く。分離すると色が消失するリスクがある
  7. タグ列と自然言語文の差は小さい — 主要属性の再現性に有意差なし。好みで選んでよい
  8. 指定した属性は安定し、未指定の属性はランダム化される — 制御したい要素はすべて明示的にプロンプトに含める

関連記事