本記事は、当ブログの各検証記事で画像を実際に比較して確認した結果を集約したものです。「よく言われているテクニック」ではなく、実験で裏付けられた知見のみを掲載しています。
対象モデル
本記事の知見は以下の環境で検証されたものです。他のモデルやパラメータでは必ずしも当てはまらない可能性があります。
| 項目 | 値 |
|---|---|
| モデル | z-image-turbo(6Bパラメータ、写実特化蒸留モデル) |
| 推論ステップ | 8 |
| サンプラー | euler |
| スケジューラー | ddim_uniform |
| CFG | 1.0(ガイダンスがモデルに内蔵) |
| 画像サイズ | 1024×1024 |
効果が実証された要素
1. シーン描写タグが画像の主要因
small cafe window seat, natural overcast daylight through glass, sitting, looking out window のような具体的なシーン描写タグが、構図・ライティング・雰囲気を支配する最大の要因です。
冒頭の自然言語文(A candid iPhone snapshot of an actress in her everyday life)を丸ごと削除しても、シーン描写タグが残っていれば画像に目立った変化はありませんでした。
根拠: 職業プロンプト検証記事 実験2 E群
2. 先頭のスタイルキーワードが画像全体の方向性を決定
photorealistic と anime illustration のようにスタイルキーワードを先頭に置くと、画像全体の方向性が完全に変わります。また、先頭の被写体指定(portrait vs cafe)は構図の寄り/引きに影響を与えます。
根拠: プロンプトの基本法則 実験1・3
3. ライティング記述は高い効果
golden hour warm light through window や backlit by moonlight のようなライティング指定は、画像の雰囲気を劇的に変えます。
- 蛍光灯的な白い光 → ゴールデンアワーの暖かい斜光(preset-verify-05)
- 正面照明 → 逆光シルエット+リムライト(preset-verify-04)
いずれもStep間の差が非常に大きく、効果が明確でした。
4. 具体的なポーズ指定が手の自然な描写にも寄与
chin resting on hands のように手の位置を含むポーズを指定すると、そのポーズが再現されるだけでなく、手指の描写も自然になります。逆にポーズ指定を外すと、手が「何をしていいか分からない」状態になります。
根拠: 神プロンプト分解検証 テスト2-C
5. actress / model は顔の方向性を制御
actress や model を使うと、CLIPの学習データに含まれる女優・モデルの整った顔写真の影響で、顔が華やかな方向になります。特定の方向性を求めないなら a woman で十分です。
根拠: 職業プロンプト検証記事 実験1
6. 環境描写で臨場感を追加
wet pavement reflections(濡れた路面の反射)のような環境要素は、ストリート写真の臨場感に直結します。路面反射の有無でStep間の差が顕著でした。
根拠: 雨の東京ネオン街
効果が否定された要素(トークン節約可)
以下の要素は、z-image-turboでは画像に目立った変化を与えないことが実験で確認されています。削除してトークンを節約できます。
品質系キーワード
| 要素 | 節約トークン | 根拠 |
|---|---|---|
coherent anatomy, correct hands and fingers | 7 | coherent anatomy検証、神プロンプト分解検証 |
RAW photo | 2 | プロンプト最適化10テーマ(※他要素が揃っている場合。単独での効果は未検証) |
photorealistic | 1 | 同上。z-image-turboはデフォルトで写実的 |
natural skin texture | 3 | 同上 |
冗長な修飾
| 要素 | 節約トークン | 根拠 |
|---|---|---|
in her everyday life | 4 | 職業プロンプト検証 D群。後続のシーン描写と重複 |
| 冒頭の自然言語文全体 | 5-10 | 同記事 E群。シーン描写タグで十分 |
| 意味が重複する二重指定 | 可変 | 神プロンプト分解検証 テスト1-A,1-E |
上位概念で暗示される要素(例: summer festival がある時の paper lantern warm light) | 4 | 同記事 テスト1-B |
機材系キーワード
| 要素 | 節約トークン | 根拠 |
|---|---|---|
カメラ機種名(shot on Canon EOS R5等) | 5-6 | ビキニプロンプト段階的改善 |
iPhone(スナップ感目的) | 1 | 職業プロンプト検証 B群 |
強調構文 (要素:重み) の注意点
z-image-turboでは、(要素:1.4) のような重み付け構文による属性の強弱変化は確認されていません。表情・構図・ライティング・スタイル・被写体属性の5カテゴリ×3シードで検証した結果、いずれも1.0と1.4で視覚的な差は見られませんでした。
ただし、重み構文の括弧・コロン・数値がトークン列を変えるため、seed固定でも画像全体が変化します。これは重み値の効果ではなく、トークン列の変化による副作用です。
根拠: プロンプトの基本法則 実験2、強調構文カテゴリ別検証
トークン最適化の実践
CLIPは最大77トークン(実質75トークン + 開始/終了トークン)で1チャンクを処理します。2チャンク目は影響力が弱まるため、75トークン以内に収めるのが理想です。
最適化の優先順位
- まず不要な品質系キーワードを削除(coherent anatomy, RAW photo等)
- 冗長な修飾を削除(上位概念で暗示される要素、二重指定)
- 自然言語文をタグ列に圧縮(
A candid snapshot of an actress→actress) - 機材系キーワードを削除(カメラ機種名)
実例: カフェスナップの最適化
最適化前(27語):
最適化後(17語):
削除した要素: A candid iPhone snapshot of / in her everyday life — いずれも実験で効果が否定済み。
検証記事一覧
本記事の根拠となった検証記事の一覧です。
| 記事 | 検証対象 |
|---|---|
| プロンプトの基本法則 | 語順、強調構文、スタイルキーワード |
| CLIPチャンク分割検証 | 75トークン境界、矛盾する指示の優先順位 |
| coherent anatomy検証 | 手指の品質キーワードの効果 |
| 職業プロンプト検証 | 職業ワード、冒頭文の要素別効果 |
| 神プロンプト分解検証 | 3つの神プロンプトの要素別必要性 |
| プロンプト最適化10テーマ | 品質キーワード、グラビア表現 |
| ビキニプロンプト段階的改善 | カメラ機種名、段階的要素追加の効果 |
| seed変動ベースライン | 同一プロンプトでのseed変動の範囲 |
| タグ列 vs 自然言語文 | プロンプト形式の違いによる出力差 |
| 属性リーク検証 | 色と対象の分離/隣接による影響 |
まとめ
z-image-turboでプロンプトを書く際の原則:
- シーン描写タグに注力する — 構図・環境・ポーズ・ライティングが画像品質の主要因
- スタイルと被写体を先頭に置く — 語順が構図に影響する
- 品質系・機材系キーワードは省略できる — z-image-turboはデフォルトで写実的
- 75トークン以内を目指す — 2チャンク目は影響力が弱い
- 冗長な修飾を避ける — 上位概念で暗示される要素は不要
- 色と対象は隣接させる —
red dressのように色と対象をひとまとまりで書く。分離すると色が消失するリスクがある - タグ列と自然言語文の差は小さい — 主要属性の再現性に有意差なし。好みで選んでよい
- 指定した属性は安定し、未指定の属性はランダム化される — 制御したい要素はすべて明示的にプロンプトに含める


