350語のプロンプトを94語に圧縮しても画質は変わらない|冗長表現の二段階削除実験

350語のプロンプトを94語に圧縮しても画質は変わらない|冗長表現の二段階削除実験

結論

  • 約350語のプロンプトを94語(約1/4)に圧縮しても、画質・構図・雰囲気に劣化なし
  • 最適化後のほうがポーズと背景の反映が安定する傾向 — 核心要素がCLIPの1チャンク目(75トークン以内)に収まるため
  • 最大の無駄は「同じ概念の繰り返し」 — 日本グラビアスタイルが6回、ライティングが4回、肌の質感が4回重複していた
  • 末尾の自然言語文は完全に無駄 — CLIPのチャンク分割により、後半の散文的記述はほぼ反映されない
  • 上位概念で暗示される詳細も削除可能curvy feminine silhouette があればバスト記述は不要、rustic indoor corner があればフローリング記述は不要

長いプロンプト=高品質ではありません。むしろ重要な要素が75トークンの壁を超えて後方に押し出されるリスクがあります。

検証対象プロンプト

あるグラビア撮影プロンプト(約350語)を題材に、冗長な表現をどこまで削れるか検証しました。

元プロンプト(約350語)
An 1girl, 32yo japanese actress, full nude, keeping the same pose and styling while meeting the camera with a soft confident smile in a Japanese celebrity gravure aesthetic, adult woman, late-20s to early-30s appearance, direct eye contact, gentle, polished, quietly captivating, toward camera, closed-lip soft smile, calm sweetness with confidence, soft, photogenic, intimate, self-possessed, Japanese celebrity makeup, luminous clear base, soft brown eyeliner, delicate curled lashes, subtle aegyo-sal highlight, naturally shaped brows, light blush, soft pink-beige lips, refined idol photobook beauty look, deep dark brown, smooth shoulder-length hair with a side part, loosely tucked back on one side, silky sheen, elegant face framing, polished but natural, curvy feminine silhouette, softly defined, full natural bust contour, one leg thrust toward the lens, the other bent and lowered along the chair, face, shoulders, arms, upper chest, abdomen, thighs, legs, porcelain-fair with a soft warm-neutral undertone, soft milky skin texture with natural smoothness and realistic detail, gentle diffused light creates luminous fair highlights and delicate tonal transitions, reclining diagonally in a wooden armchair, one arm bent behind the head, torso slightly twisted, one leg extended toward the camera, unchanged pose, relaxed, intimate, foreground-heavy foreshortened composition, black, delicate dark contrast against fair luminous skin, matching dark bands at the thighs, vintage carved wooden armchair with a patterned cushion, Japanese celebrity photobook style, Japanese gravure-inspired portrait, realistic magazine-quality digital photo, slight top-down diagonal view from the foot-side, vertical three-quarter body shot with a dominant foreground leg, 3:4 vertical, clear face detail, airy highlight bloom, soft diffusion, gentle lens blur on the nearest foot, clean image with refined skin rendering, soft diffused indoor light with a Japanese photobook feel, brightened skin tones, gentle shadow separation, elegant natural glow, shallow to medium, face in crisp focus, nearest foot heavily blurred, a rustic indoor corner with a vintage wooden chair, warm brown wood tones and off-white textile tones, patterned cushion with bird motif, lace fabric behind the chair, weathered wooden floorboards, dark wooden structural elements, quiet, warm, refined, nostalgic with a soft Japanese photobook sensibility, softened warm indoor light with a cleaner and more delicate finish, gentle, polished, quietly magnetic, soft, elegant, intimate, Japanese celebrity gravure, idol photobook realism, luminous and refined, same pose and outfit preserved, realistic room textures, natural human warmth, the frame feels close but tender, as if the camera caught a carefully composed moment that still breathes like a real room, She settled into the old chair and held the same relaxed pose, but the light now flatters her like a Japanese photobook cover—fair skin glowing softly, expression composed, the room turning gentle around her, soft star aura, elegant closeness, photobook charm

一見するとリッチなプロンプトに見えますが、同じことを何度も言い換えているだけの部分が大量にあります。

問題1: 同じ概念の大量重複

このプロンプトで最も深刻な問題は、同一の概念が複数回繰り返されていることです。

日本グラビアスタイル: 6回

  1. Japanese celebrity gravure aesthetic
  2. Japanese celebrity photobook style
  3. Japanese gravure-inspired portrait
  4. Japanese celebrity gravure
  5. idol photobook realism
  6. Japanese photobook sensibility

1回で十分です。 Japanese celebrity photobook style 1つに統合しました。

ライティング: 4回

  1. gentle diffused light creates luminous fair highlights and delicate tonal transitions
  2. soft diffused indoor light with a Japanese photobook feel
  3. softened warm indoor light with a cleaner and more delicate finish
  4. brightened skin tones, gentle shadow separation, elegant natural glow

全て「柔らかい室内光」と言っています。soft diffused indoor light 1つで十分です。

肌の質感: 4回

  1. porcelain-fair with a soft warm-neutral undertone
  2. soft milky skin texture with natural smoothness and realistic detail
  3. brightened skin tones
  4. fair skin glowing softly

porcelain-fair skin with warm-neutral undertone に統合。さらに natural skin texture 系の表現は効果なしが検証済みのため削除しました。

その他の重複

概念重複回数統合後
柔らかい笑顔3回closed-lip soft smile
カメラ目線3回direct eye contact
ポーズ維持3回削除(具体的ポーズ記述で十分)
上品・親密な雰囲気3回削除(スタイル指定で暗示)
被写界深度3回shallow depth of field, face in crisp focus, nearest foot blurred

問題2: 効果なし・冗長な表現

これまでの検証記事で効果なしと確認された表現が含まれています。

表現理由根拠
soft milky skin texture with natural smoothness and realistic detailnatural skin texture系は効果なし神プロンプト分解検証
realistic magazine-quality digital photoz-image-turboはデフォルトで写実的プロンプト最適化10テーマ
clean image with refined skin rendering品質系キーワード、効果未確認同上
adult woman, late-20s to early-30s appearance32yoで暗示済み
メイク詳細7項目Japanese celebrity makeupで暗示職業プロンプト検証

問題3: 末尾の自然言語文

プロンプト末尾に約50語の散文があります。

She settled into the old chair and held the same relaxed pose, but the light now flatters her like a Japanese photobook cover—fair skin glowing softly, expression composed, the room turning gentle around her, soft star aura, elegant closeness, photobook charm

CLIPの75トークンチャンク分割の検証で、後半チャンクの要素は不安定で部分的にしか反映されないことが確認されています。350語のプロンプトでは4〜5チャンクに分割されるため、この末尾の散文はほぼ反映されません。

最適化プロンプト

上記の問題を全て修正した結果がこちらです。

最適化後(約120語)
1girl, 32yo japanese actress, full nude, reclining diagonally in a wooden armchair, one arm bent behind the head, torso slightly twisted, one leg extended toward the camera, the other bent along the chair, direct eye contact, closed-lip soft smile, deep dark brown smooth shoulder-length hair with a side part, loosely tucked back on one side, Japanese celebrity makeup, curvy feminine silhouette, full natural bust contour, porcelain-fair skin with warm-neutral undertone, black delicate lingerie bands at thighs, vintage wooden armchair with patterned cushion, rustic indoor corner, warm brown wood tones, lace fabric behind chair, weathered wooden floorboards, soft diffused indoor light, shallow depth of field, face in crisp focus, nearest foot blurred, slight top-down diagonal view, vertical three-quarter body shot, foreground-heavy foreshortened composition, 3:4 vertical, Japanese celebrity photobook style, airy highlight bloom

約350語 → 約120語(66%削減)。 核心的な要素は全て残しつつ、重複と効果なし表現を排除しました。

比較結果

同一seed(42, 123, 456)で元プロンプト・最適化プロンプトをそれぞれ生成し、比較しました。

seed 42

元プロンプト(約350語)最適化後(約120語)
元プロンプトseed42最適化後seed42
NSFW - クリックで表示
構図・ポーズ・ライティング・背景ともにほぼ同等。最適化後は黒下着(bands at thighs)がより明確に反映されている。

seed 123

元プロンプト(約350語)最適化後(約120語)
元プロンプトseed123最適化後seed123
NSFW - クリックで表示
元プロンプトでは脚で胸を隠す構図だが、最適化後は正面向きで両腕を上げた開放的なポーズ。プロンプトの意図(one arm bent behind the head)に忠実なのは最適化後のほう。

seed 456

元プロンプト(約350語)最適化後(約120語)
元プロンプトseed456最適化後seed456
NSFW - クリックで表示
両方とも安定した構図。最適化後はレース背景と木製フローリングがより明確に出現している。

比較まとめ

観点元プロンプト最適化後
ポーズの意図反映3枚中2枚で安定3枚中3枚で安定
背景要素の反映レース・フローリングが不安定安定して出現
黒下着の反映3枚中1枚で不明確3枚中3枚で明確
ライティング柔らかい室内光同等
肌の質感自然同等

ラボ長コメント: 短い方がむしろポーズ安定してるの、CLIPのチャンク分割を考えれば当然なんだけど実際に並べると説得力あるね。350語も書いたのに後半全部無駄だったっていう

追加実験: 120語をさらに94語に圧縮

120語の最適化プロンプトにはまだ削れる余地があります。検証済み知見に基づいて、さらに以下の6箇所を圧縮しました。

削除した表現理由
deep smooth(髪の修飾)dark brown で十分。テクスチャ修飾は効果未確認
loosely tucked back on one sideside part で暗示される範囲
full natural bust contourcurvy feminine silhouette で暗示
wooden(ポーズ側のarmchair)背景側で vintage wooden armchair と記述済み
in crisp focus, nearest foot blurredin focusshallow depth of field + 構図で暗示
vertical three-quarter body shot3:4 vertical + foreground-heavy foreshortened composition と重複
warm brown wood tones, weathered wooden floorboardsrustic indoor corner で暗示(神プロンプト分解検証
さらに圧縮(約94語)
1girl, 32yo japanese actress, full nude, reclining diagonally in an armchair, one arm bent behind the head, torso slightly twisted, one leg extended toward the camera, the other bent along the chair, direct eye contact, closed-lip soft smile, dark brown shoulder-length hair, side part, Japanese celebrity makeup, curvy feminine silhouette, porcelain-fair skin with warm-neutral undertone, black delicate lingerie bands at thighs, vintage wooden armchair with patterned cushion, rustic indoor corner, lace fabric behind chair, soft diffused indoor light, shallow depth of field, face in focus, slight top-down diagonal view, foreground-heavy foreshortened composition, 3:4 vertical, Japanese celebrity photobook style, airy highlight bloom

約120語 → 約94語(さらに22%削減、元の350語から73%削減)。

120語版 vs 94語版の比較

同一seed(42, 123, 456)で比較しました。

seed 42

120語版94語版
120語版seed4294語版seed42
NSFW - クリックで表示
ポーズ・アームチェア・レース背景・黒下着ともに同等。フローリングの描写がわずかに控えめだが、ラスティックな雰囲気は維持。

seed 123

120語版94語版
120語版seed12394語版seed123
NSFW - クリックで表示
両方ともアームチェアで腕を頭上に上げたポーズ。クッション・レース・黒下着が安定して出現。

seed 456

120語版94語版
120語版seed45694語版seed456
NSFW - クリックで表示
レース背景とフローリングが両方で出現。94語版でもラスティックな室内の雰囲気は変わらない。

追加圧縮の比較まとめ

観点120語版94語版
ポーズ(腕を頭上に)3/3安定3/3安定
アームチェア+クッション3/3出現3/3出現
レース背景3/3出現3/3出現
黒下着3/3出現3/3出現
フローリング3/3で明確3/3中2枚でやや控えめ
被写界深度浅い同等
髪型ダークブラウン肩丈同等
体型自然同等(full natural bust contour 削除の影響なし)

94語版で唯一の微差はフローリングの描写がやや控えめになること。 rustic indoor corner が木の質感を暗示するため雰囲気は維持されるが、フローリングを確実に出したい場合は wooden floorboards だけ残す選択肢もあります。

ラボ長コメント: 350語→120語で「こんなに削れるの?」ってなったのに、そこからさらに2割削れるとは。curvy feminine silhouette 書いておけばバストの記述いらないの、上位概念の暗示力すごい

なぜ短い方が安定するのか

CLIPの75トークンチャンク分割の仕組みを振り返ると理由は明確です。

元プロンプト(約350語)の場合:

  • 4〜5チャンクに分割される
  • ポーズ記述が1チャンク目と2チャンク目にまたがる
  • 背景・衣装の記述は3チャンク目以降に押し出される
  • 末尾の散文は5チャンク目で、ほぼ無視される

最適化後(約120語)の場合:

  • 1〜2チャンクに収まる
  • 被写体・ポーズ・表情が全て1チャンク目に入る
  • 背景・構図・スタイルが2チャンク目に入る
  • 無駄なトークンがないため、全要素に注意が配分される

さらに圧縮(約94語)の場合:

  • ほぼ1チャンクに収まる(2チャンク目はわずか)
  • 上位概念で暗示される詳細を削除しても、CLIPが文脈から補完する
  • トークン数が少ないほど各トークンへの注意配分が均等になる

削除チェックリスト

自分のプロンプトを圧縮する際のチェックリストです。

即削除できるもの

  • 同じ概念の2回目以降の記述 — スタイル、ライティング、肌質感、雰囲気の形容詞
  • realistic, photorealistic — z-image-turboのデフォルト
  • natural skin texture, coherent anatomy効果なし検証済み
  • 末尾の自然言語まとめ文 — CLIPの後方チャンクでほぼ無視
  • adult woman等の年齢の言い換え32yoで十分

上位概念で暗示されるもの

  • Japanese celebrity makeup → 個別のメイク詳細(アイライナー、涙袋、眉、チーク、リップ)は暗示される
  • summer festival → 提灯、屋台は自然に出現(神プロンプト分解検証で確認済み)
  • rustic indoor cornerwarm brown wood tones, weathered wooden floorboards, dark wooden structural elementsは暗示される
  • curvy feminine silhouettefull natural bust contourは暗示される
  • shallow depth of field + 構図指定 → face in crisp focus, nearest foot blurredは暗示される

同義の構図記述

  • 3:4 vertical があれば vertical three-quarter body shot の「vertical」は重複
  • foreground-heavy foreshortened composition + ポーズ記述で構図は十分

残すべきもの

  • 具体的なポーズone arm bent behind the head, torso slightly twisted
  • ライティング(1回だけ)soft diffused indoor light
  • 構図foreground-heavy foreshortened composition, 3:4 vertical
  • 被写体の核心属性32yo japanese actress, 髪型、体型
  • スタイル(1回だけ)Japanese celebrity photobook style

ラボ長コメント: プロンプトは「詩」じゃなくて「指示書」。同じことを美しい言い換えで繰り返しても、CLIPは感動してくれません

関連記事