結論
- 300トークンのプロンプトを30トークンまで圧縮(90%削減)しても、意図した画像は再現できた
no watermark等のno形式ネガティブ(12項目・約60トークン)はCFG=1.0で全て機能しないRAW photo,masterpiece,8K UHD等の品質タグは出力に影響しない- 肌テクスチャの3重記述、ライティング比率、レンズ描写は全て削除可能
- ただし
thin strapsを削除するとクロップトップが半袖Tシャツに化ける — 二分探索で特定した必須要素
検証の目的
スタジオ撮影のエディトリアルポートレートでは、肌質感、ライティング、レンズ描写などを細かく指定するプロンプトが多い。本記事では、300トークンのプロンプトを段階的に圧縮し、二分探索で「削ると壊れる最小必須要素」を特定した。
実験条件
| 項目 | 値 |
|---|---|
| モデル | z-image-turbo(6B、写実特化蒸留モデル) |
| ステップ数 | 8 |
| サンプラー | euler |
| スケジューラー | ddim_uniform |
| CFG | 1.0 |
| 画像サイズ | 720×1280(縦長) |
| seed | 42, 77, 123(3シード固定) |
元プロンプトの問題分析
まず、元プロンプト(約300トークン)を分析する。
CFG=1.0で機能しない要素(約60トークン)
元プロンプトの末尾に12個のno形式ネガティブが並んでいる。
| 要素 | トークン |
|---|---|
no watermark, no text, no illustration, no CGI | ~12 |
no plastic skin, no wax feel, no airbrushed over-smoothing | ~12 |
no yellow undertone, no oily shine, no orange cast | ~10 |
no deformed anatomy, no extra fingers | ~8 |
CFG=1.0のモデルでは、ポジティブプロンプト内のno形式否定語は意図通りに機能しない。これだけで約60トークンが無駄になっている。
効果なしの品質タグ(約10トークン)
| 要素 | 理由 |
|---|---|
RAW photo quality | 検証済みで効果なし |
masterpiece | booru系タグ。写実モデルでは不要 |
8K UHD | 出力解像度はモデル固定 |
photorealistic | 写実モデルにフォトリアルを指定する冗長性 |
冗長な重複記述
| 重複内容 | 出現箇所 | 回数 |
|---|---|---|
| 肌テクスチャ | visible pores / peach fuzz / subsurface scattering / skin luminosity / ultra-detailed skin texture with natural pores and peach fuzz | 5回 |
| スカートのフィット感 | tight black bodycon mini skirt hugging every curve / fabric stretched taut across round hips with visible tension at the seams / fabric tension and stretch marks on bodycon dress visible | 3回 |
| ライティング | studio lighting setup / key light: large softbox from upper left 45 degrees / soft quality / rim light from behind right shoulder / lighting ratio 3:1 / sculpting her waist and hip curves with shadow and highlight | 6フレーズ |
段階的圧縮プロセス
一気に削るのではなく、段階的に圧縮して各段階でseed固定比較を行った。
ステップ1: 明らかな無駄を削除(300→75トークン)
- no形式ネガティブ12項目を全削除(~60トークン)
- 品質タグを全削除(~10トークン)
- 肌テクスチャ5重記述を1回に統合(~40トークン)
- ライティング詳細(比率、キャッチライト位置)を簡略化(~25トークン)
- レンズ描写(85mm f/2, bokeh)を削除(~15トークン)
- 色グレーディング詳細を削除(~20トークン)
結果: 3seedとも目視差なし。75トークンで元プロンプトと同等。
ステップ2: さらに削減(75→55トークン)
10cm(ヒール高さ)を削除 → 3seedとも差なし9-head proportionを削除 → 体型に変化なしpale porcelain skinを削除 → Korean idolで暗示されるhips lifted off heelsを削除 → kneeling poseだけで再現
結果: 差なし。55トークンで同等。
ステップ3: 大胆削減(55→30トークン)
さらに以下を削除: editorial portrait photography, full body shot, beautiful, early 20s, confident seductive, Korean makeup, nude-pink lips, ライティング方向指定, low angle
実験結果
120トークン版 vs 30トークン版
| seed 42 | seed 77 | seed 123 | |
|---|---|---|---|
| 120トークン | ![]() | ![]() | ![]() |
| 30トークン | ![]() | ![]() | ![]() |
維持された要素(3/3枚): 膝立ちポーズ、ツイスト、黒クロップトップ+ミニスカート、スティレットヒール、ストレートヘア、スモーキーアイ、スタジオ背景
30トークン版は120トークン版と同等の出力を維持している。
ラボ長コメント: 300トークンが30で同じ画像出るの、元プロンプトの9割がモデルに届いてなかったってこと。肌テクスチャ5回書いても1回と変わらないの、ちょっと切ない。
18トークン版で壊れた
さらに削って18トークンにしたら衣装が崩壊した。
| seed 42 | seed 123 | |
|---|---|---|
| 30トークン | ![]() | ![]() |
| 18トークン | ![]() | ![]() |
seed 42と123でクロップトップが半袖Tシャツに変化し、ストレートヘアがウェーブに変わった。
二分探索で原因を特定
30→18トークンで削除した6要素を「衣装・外見グループ」と「ポーズ・ライティンググループ」に二分し、どちらを戻せば復活するかテストした。
| グループ | 戻した要素 |
|---|---|
| A(衣装・外見) | thin straps, bodycon, smoky eyes, straight(髪), gaze into lens |
| B(ポーズ・ライティング) | torso twisted, softbox lighting |
| seed 42 | seed 123 | |
|---|---|---|
| グループA | ![]() | ![]() |
グループAで衣装が復活。 グループBでは半袖Tシャツのまま変わらなかった。
必須要素の特定
| 要素 | 必須か | 理由 |
|---|---|---|
thin straps | 必須 | crop top だけだと半袖Tシャツに化ける。ストラップの形状指定が衣装を決定する |
straight(髪) | 必須 | なしだとウェーブヘアになるseedがある |
bodycon | 推奨 | スカートのフィット感に寄与するが、なくても大崩れしない |
smoky eyes | 任意 | 雰囲気に寄与するが、メイクの大枠は Korean idol で暗示される |
gaze into lens | 任意 | なくてもカメラ目線になる傾向がある |
ラボ長コメント:
thin strapsの2トークンが300トークンのプロンプトより衣装に効いてたの、プロンプトは量より精度。
まとめ
削除しても影響がなかった要素
| カテゴリ | 削除した要素 | 節約トークン |
|---|---|---|
| no形式ネガティブ | no watermark 等12項目 | ~60 |
| 品質タグ | RAW photo, masterpiece, 8K UHD, photorealistic | ~10 |
| 肌テクスチャ | visible pores, peach fuzz, subsurface scattering 等の5重記述 | ~40 |
| ライティング詳細 | 比率3:1, キャッチライト位置, 色温度 | ~25 |
| レンズ描写 | 85mm f/2, bokeh transition | ~15 |
| 色グレーディング | neutral color grading, cool blue tone shadows | ~20 |
| 暗示される属性 | 10cm, 9-head proportion, pale porcelain skin, early 20s | ~15 |
| スタイル・構図 | editorial portrait photography, full body shot, beautiful | ~10 |
削除すると壊れた要素
| 要素 | 影響 |
|---|---|
thin straps | クロップトップが半袖Tシャツに変化 |
straight(髪) | ストレートヘアがウェーブに変化 |
最適化結果
| 版 | トークン | 削減率 | 品質 |
|---|---|---|---|
| 元プロンプト | ~300 | — | ベースライン |
| 75トークン版 | ~75 | 75% | 差なし |
| 55トークン版 | ~55 | 82% | 差なし |
| 30トークン版 | ~30 | 90% | 差なし |
| 18トークン版 | ~18 | 94% | 衣装崩壊 |
ラボ長コメント: プロンプトの9割を削っても同じ画像が出るなら、最初から30トークンで書けばいい。余った枠で新しい要素を試すほうがよっぽど画が変わる。












