【検証済み】画像生成プロンプトのベストプラクティス

本記事は、当ブログの各検証記事で画像を実際に比較して確認した結果を集約したものです。「よく言われているテクニック」ではなく、実験で裏付けられた知見のみを掲載しています。

対象モデル

本記事の知見は以下の環境で検証されたものです。他のモデルやパラメータでは必ずしも当てはまらない可能性があります。

項目	値
モデル	z-image-turbo（6Bパラメータ、写実特化蒸留モデル）
推論ステップ	8
サンプラー	euler
スケジューラー	ddim_uniform
CFG	1.0（ガイダンスがモデルに内蔵）
画像サイズ	1024×1024

効果が実証された要素

1. シーン描写タグが画像の主要因

small cafe window seat, natural overcast daylight through glass, sitting, looking out window のような具体的なシーン描写タグが、構図・ライティング・雰囲気を支配する最大の要因です。

冒頭の自然言語文（A candid iPhone snapshot of an actress in her everyday life）を丸ごと削除しても、シーン描写タグが残っていれば画像に目立った変化はありませんでした。

根拠: 職業プロンプト検証記事実験2 E群

2. 先頭のスタイルキーワードが画像全体の方向性を決定

photorealistic と anime illustration のようにスタイルキーワードを先頭に置くと、画像全体の方向性が完全に変わります。また、先頭の被写体指定（portrait vs cafe）は構図の寄り/引きに影響を与えます。

根拠: プロンプトの基本法則実験1・3

3. ライティング記述は高い効果

golden hour warm light through window や backlit by moonlight のようなライティング指定は、画像の雰囲気を劇的に変えます。

蛍光灯的な白い光 → ゴールデンアワーの暖かい斜光（preset-verify-05）
正面照明 → 逆光シルエット+リムライト（preset-verify-04）

いずれもStep間の差が非常に大きく、効果が明確でした。

根拠: 図書室エモ構図、月明かりの海辺

4. 具体的なポーズ指定が手の自然な描写にも寄与

chin resting on hands のように手の位置を含むポーズを指定すると、そのポーズが再現されるだけでなく、手指の描写も自然になります。逆にポーズ指定を外すと、手が「何をしていいか分からない」状態になります。

根拠: 神プロンプト分解検証テスト2-C

5. `actress` / `model` は顔の方向性を制御

actress や model を使うと、CLIPの学習データに含まれる女優・モデルの整った顔写真の影響で、顔が華やかな方向になります。特定の方向性を求めないなら a woman で十分です。

根拠: 職業プロンプト検証記事実験1

6. 環境描写で臨場感を追加

wet pavement reflections（濡れた路面の反射）のような環境要素は、ストリート写真の臨場感に直結します。路面反射の有無でStep間の差が顕著でした。

根拠: 雨の東京ネオン街

効果が否定された要素（トークン節約可）

以下の要素は、z-image-turboでは画像に目立った変化を与えないことが実験で確認されています。削除してトークンを節約できます。

品質系キーワード

要素	節約トークン	根拠
`coherent anatomy, correct hands and fingers`	7	coherent anatomy検証、神プロンプト分解検証
`RAW photo`	2	プロンプト最適化10テーマ（※他要素が揃っている場合。単独での効果は未検証）
`photorealistic`	1	同上。z-image-turboはデフォルトで写実的
`natural skin texture`	3	同上

冗長な修飾

要素	節約トークン	根拠
`in her everyday life`	4	職業プロンプト検証 D群。後続のシーン描写と重複
冒頭の自然言語文全体	5-10	同記事 E群。シーン描写タグで十分
意味が重複する二重指定	可変	神プロンプト分解検証テスト1-A,1-E
上位概念で暗示される要素（例: `summer festival` がある時の `paper lantern warm light`）	4	同記事テスト1-B

機材系キーワード

要素	節約トークン	根拠
カメラ機種名（`shot on Canon EOS R5`等）	5-6	ビキニプロンプト段階的改善
`iPhone`（スナップ感目的）	1	職業プロンプト検証 B群

強調構文 `(要素:重み)` の注意点

z-image-turboでは、(要素:1.4) のような重み付け構文による属性の強弱変化は確認されていません。表情・構図・ライティング・スタイル・被写体属性の5カテゴリ×3シードで検証した結果、いずれも1.0と1.4で視覚的な差は見られませんでした。

ただし、重み構文の括弧・コロン・数値がトークン列を変えるため、seed固定でも画像全体が変化します。これは重み値の効果ではなく、トークン列の変化による副作用です。

根拠: プロンプトの基本法則実験2、強調構文カテゴリ別検証

トークン最適化の実践

CLIPは最大77トークン（実質75トークン + 開始/終了トークン）で1チャンクを処理します。2チャンク目は影響力が弱まるため、75トークン以内に収めるのが理想です。

最適化の優先順位

まず不要な品質系キーワードを削除（coherent anatomy, RAW photo等）
冗長な修飾を削除（上位概念で暗示される要素、二重指定）
自然言語文をタグ列に圧縮（A candid snapshot of an actress → actress）
機材系キーワードを削除（カメラ機種名）

実例: カフェスナップの最適化

最適化前（27語）:

最適化前

A candid iPhone snapshot of an actress in her everyday life. 1girl, 22yo japanese woman, small cafe window seat, natural overcast daylight through glass, beige oversized knit sweater, sitting, looking out window, gentle natural expression.

最適化後（17語）:

最適化後

1girl, 22yo japanese actress, small cafe window seat, natural overcast daylight through glass, beige oversized knit sweater, sitting, looking out window, gentle natural expression.

削除した要素: A candid iPhone snapshot of / in her everyday life — いずれも実験で効果が否定済み。

検証記事一覧

本記事の根拠となった検証記事の一覧です。

記事	検証対象
プロンプトの基本法則	語順、強調構文、スタイルキーワード
CLIPチャンク分割検証	75トークン境界、矛盾する指示の優先順位
coherent anatomy検証	手指の品質キーワードの効果
職業プロンプト検証	職業ワード、冒頭文の要素別効果
神プロンプト分解検証	3つの神プロンプトの要素別必要性
プロンプト最適化10テーマ	品質キーワード、グラビア表現
ビキニプロンプト段階的改善	カメラ機種名、段階的要素追加の効果
seed変動ベースライン	同一プロンプトでのseed変動の範囲
タグ列 vs 自然言語文	プロンプト形式の違いによる出力差
属性リーク検証	色と対象の分離/隣接による影響

まとめ

z-image-turboでプロンプトを書く際の原則:

シーン描写タグに注力する — 構図・環境・ポーズ・ライティングが画像品質の主要因
スタイルと被写体を先頭に置く — 語順が構図に影響する
品質系・機材系キーワードは省略できる — z-image-turboはデフォルトで写実的
75トークン以内を目指す — 2チャンク目は影響力が弱い
冗長な修飾を避ける — 上位概念で暗示される要素は不要
色と対象は隣接させる — red dressのように色と対象をひとまとまりで書く。分離すると色が消失するリスクがある
タグ列と自然言語文の差は小さい — 主要属性の再現性に有意差なし。好みで選んでよい
指定した属性は安定し、未指定の属性はランダム化される — 制御したい要素はすべて明示的にプロンプトに含める

PR RunPod クラウドGPUでAI画像生成 RunPodを始める →