結論
- 約350語のプロンプトを94語(約1/4)に圧縮しても、画質・構図・雰囲気に劣化なし
- 最適化後のほうがポーズと背景の反映が安定する傾向 — 核心要素がCLIPの1チャンク目(75トークン以内)に収まるため
- 最大の無駄は「同じ概念の繰り返し」 — 日本グラビアスタイルが6回、ライティングが4回、肌の質感が4回重複していた
- 末尾の自然言語文は完全に無駄 — CLIPのチャンク分割により、後半の散文的記述はほぼ反映されない
- 上位概念で暗示される詳細も削除可能 —
curvy feminine silhouetteがあればバスト記述は不要、rustic indoor cornerがあればフローリング記述は不要
長いプロンプト=高品質ではありません。むしろ重要な要素が75トークンの壁を超えて後方に押し出されるリスクがあります。
検証対象プロンプト
あるグラビア撮影プロンプト(約350語)を題材に、冗長な表現をどこまで削れるか検証しました。
一見するとリッチなプロンプトに見えますが、同じことを何度も言い換えているだけの部分が大量にあります。
問題1: 同じ概念の大量重複
このプロンプトで最も深刻な問題は、同一の概念が複数回繰り返されていることです。
日本グラビアスタイル: 6回
Japanese celebrity gravure aestheticJapanese celebrity photobook styleJapanese gravure-inspired portraitJapanese celebrity gravureidol photobook realismJapanese photobook sensibility
1回で十分です。 Japanese celebrity photobook style 1つに統合しました。
ライティング: 4回
gentle diffused light creates luminous fair highlights and delicate tonal transitionssoft diffused indoor light with a Japanese photobook feelsoftened warm indoor light with a cleaner and more delicate finishbrightened skin tones, gentle shadow separation, elegant natural glow
全て「柔らかい室内光」と言っています。soft diffused indoor light 1つで十分です。
肌の質感: 4回
porcelain-fair with a soft warm-neutral undertonesoft milky skin texture with natural smoothness and realistic detailbrightened skin tonesfair skin glowing softly
porcelain-fair skin with warm-neutral undertone に統合。さらに natural skin texture 系の表現は効果なしが検証済みのため削除しました。
その他の重複
| 概念 | 重複回数 | 統合後 |
|---|---|---|
| 柔らかい笑顔 | 3回 | closed-lip soft smile |
| カメラ目線 | 3回 | direct eye contact |
| ポーズ維持 | 3回 | 削除(具体的ポーズ記述で十分) |
| 上品・親密な雰囲気 | 3回 | 削除(スタイル指定で暗示) |
| 被写界深度 | 3回 | shallow depth of field, face in crisp focus, nearest foot blurred |
問題2: 効果なし・冗長な表現
これまでの検証記事で効果なしと確認された表現が含まれています。
| 表現 | 理由 | 根拠 |
|---|---|---|
soft milky skin texture with natural smoothness and realistic detail | natural skin texture系は効果なし | 神プロンプト分解検証 |
realistic magazine-quality digital photo | z-image-turboはデフォルトで写実的 | プロンプト最適化10テーマ |
clean image with refined skin rendering | 品質系キーワード、効果未確認 | 同上 |
adult woman, late-20s to early-30s appearance | 32yoで暗示済み | — |
| メイク詳細7項目 | Japanese celebrity makeupで暗示 | 職業プロンプト検証 |
問題3: 末尾の自然言語文
プロンプト末尾に約50語の散文があります。
She settled into the old chair and held the same relaxed pose, but the light now flatters her like a Japanese photobook cover—fair skin glowing softly, expression composed, the room turning gentle around her, soft star aura, elegant closeness, photobook charm
CLIPの75トークンチャンク分割の検証で、後半チャンクの要素は不安定で部分的にしか反映されないことが確認されています。350語のプロンプトでは4〜5チャンクに分割されるため、この末尾の散文はほぼ反映されません。
最適化プロンプト
上記の問題を全て修正した結果がこちらです。
約350語 → 約120語(66%削減)。 核心的な要素は全て残しつつ、重複と効果なし表現を排除しました。
比較結果
同一seed(42, 123, 456)で元プロンプト・最適化プロンプトをそれぞれ生成し、比較しました。
seed 42
| 元プロンプト(約350語) | 最適化後(約120語) |
|---|---|
![]() | ![]() |
bands at thighs)がより明確に反映されている。seed 123
| 元プロンプト(約350語) | 最適化後(約120語) |
|---|---|
![]() | ![]() |
one arm bent behind the head)に忠実なのは最適化後のほう。seed 456
| 元プロンプト(約350語) | 最適化後(約120語) |
|---|---|
![]() | ![]() |
比較まとめ
| 観点 | 元プロンプト | 最適化後 |
|---|---|---|
| ポーズの意図反映 | 3枚中2枚で安定 | 3枚中3枚で安定 |
| 背景要素の反映 | レース・フローリングが不安定 | 安定して出現 |
| 黒下着の反映 | 3枚中1枚で不明確 | 3枚中3枚で明確 |
| ライティング | 柔らかい室内光 | 同等 |
| 肌の質感 | 自然 | 同等 |
ラボ長コメント: 短い方がむしろポーズ安定してるの、CLIPのチャンク分割を考えれば当然なんだけど実際に並べると説得力あるね。350語も書いたのに後半全部無駄だったっていう
追加実験: 120語をさらに94語に圧縮
120語の最適化プロンプトにはまだ削れる余地があります。検証済み知見に基づいて、さらに以下の6箇所を圧縮しました。
| 削除した表現 | 理由 |
|---|---|
deep smooth(髪の修飾) | dark brown で十分。テクスチャ修飾は効果未確認 |
loosely tucked back on one side | side part で暗示される範囲 |
full natural bust contour | curvy feminine silhouette で暗示 |
wooden(ポーズ側のarmchair) | 背景側で vintage wooden armchair と記述済み |
in crisp focus, nearest foot blurred → in focus | shallow depth of field + 構図で暗示 |
vertical three-quarter body shot | 3:4 vertical + foreground-heavy foreshortened composition と重複 |
warm brown wood tones, weathered wooden floorboards | rustic indoor corner で暗示(神プロンプト分解検証) |
約120語 → 約94語(さらに22%削減、元の350語から73%削減)。
120語版 vs 94語版の比較
同一seed(42, 123, 456)で比較しました。
seed 42
| 120語版 | 94語版 |
|---|---|
![]() | ![]() |
seed 123
| 120語版 | 94語版 |
|---|---|
![]() | ![]() |
seed 456
| 120語版 | 94語版 |
|---|---|
![]() | ![]() |
追加圧縮の比較まとめ
| 観点 | 120語版 | 94語版 |
|---|---|---|
| ポーズ(腕を頭上に) | 3/3安定 | 3/3安定 |
| アームチェア+クッション | 3/3出現 | 3/3出現 |
| レース背景 | 3/3出現 | 3/3出現 |
| 黒下着 | 3/3出現 | 3/3出現 |
| フローリング | 3/3で明確 | 3/3中2枚でやや控えめ |
| 被写界深度 | 浅い | 同等 |
| 髪型 | ダークブラウン肩丈 | 同等 |
| 体型 | 自然 | 同等(full natural bust contour 削除の影響なし) |
94語版で唯一の微差はフローリングの描写がやや控えめになること。 rustic indoor corner が木の質感を暗示するため雰囲気は維持されるが、フローリングを確実に出したい場合は wooden floorboards だけ残す選択肢もあります。
ラボ長コメント: 350語→120語で「こんなに削れるの?」ってなったのに、そこからさらに2割削れるとは。
curvy feminine silhouette書いておけばバストの記述いらないの、上位概念の暗示力すごい
なぜ短い方が安定するのか
CLIPの75トークンチャンク分割の仕組みを振り返ると理由は明確です。
元プロンプト(約350語)の場合:
- 4〜5チャンクに分割される
- ポーズ記述が1チャンク目と2チャンク目にまたがる
- 背景・衣装の記述は3チャンク目以降に押し出される
- 末尾の散文は5チャンク目で、ほぼ無視される
最適化後(約120語)の場合:
- 1〜2チャンクに収まる
- 被写体・ポーズ・表情が全て1チャンク目に入る
- 背景・構図・スタイルが2チャンク目に入る
- 無駄なトークンがないため、全要素に注意が配分される
さらに圧縮(約94語)の場合:
- ほぼ1チャンクに収まる(2チャンク目はわずか)
- 上位概念で暗示される詳細を削除しても、CLIPが文脈から補完する
- トークン数が少ないほど各トークンへの注意配分が均等になる
削除チェックリスト
自分のプロンプトを圧縮する際のチェックリストです。
即削除できるもの
- 同じ概念の2回目以降の記述 — スタイル、ライティング、肌質感、雰囲気の形容詞
realistic,photorealistic— z-image-turboのデフォルトnatural skin texture,coherent anatomy— 効果なし検証済み- 末尾の自然言語まとめ文 — CLIPの後方チャンクでほぼ無視
adult woman等の年齢の言い換え —32yoで十分
上位概念で暗示されるもの
Japanese celebrity makeup→ 個別のメイク詳細(アイライナー、涙袋、眉、チーク、リップ)は暗示されるsummer festival→ 提灯、屋台は自然に出現(神プロンプト分解検証で確認済み)rustic indoor corner→warm brown wood tones,weathered wooden floorboards,dark wooden structural elementsは暗示されるcurvy feminine silhouette→full natural bust contourは暗示されるshallow depth of field+ 構図指定 →face in crisp focus,nearest foot blurredは暗示される
同義の構図記述
3:4 verticalがあればvertical three-quarter body shotの「vertical」は重複foreground-heavy foreshortened composition+ ポーズ記述で構図は十分
残すべきもの
- 具体的なポーズ —
one arm bent behind the head,torso slightly twisted - ライティング(1回だけ) —
soft diffused indoor light - 構図 —
foreground-heavy foreshortened composition,3:4 vertical - 被写体の核心属性 —
32yo japanese actress, 髪型、体型 - スタイル(1回だけ) —
Japanese celebrity photobook style
ラボ長コメント: プロンプトは「詩」じゃなくて「指示書」。同じことを美しい言い換えで繰り返しても、CLIPは感動してくれません











