結論
coherent anatomyとnatural skin textureはz-image-turboで効果なし 3プロンプト共通で削除しても変化がなく、トークン節約に直結する- スタイル指定は前置きか後置きの一方で十分 二重指定はトークンの無駄。前置きの方が先頭位置で影響が強い
- 長い自然言語の記述より短いキーワードの方が効率的 カフェスナップの21語の不完全さ記述は
snapshot aesthetic1語で代替可能だった - 表情・ポーズ・光の指定は削れない
cotton candy in hand、chin resting on hands、half-closed eyesなどは画像の意図を決める核心要素 - 環境の暗黙知を活用すべき
summer festivalと書けば屋台は自然に出現するため、わざわざ列挙する必要はない
前回の記事で紹介した神プロンプト3つ。「何枚生成しても安定する」と評価しましたが、本当に全部の要素が必要なのか?
この記事ではアブレーション検証(要素を1つずつ削除して影響を調べる手法)で、各プロンプトの「本当に必要な部分」を特定します。
検証方法
- 神プロンプトの各要素を1つだけ削除したバリエーションを作成
- 各バリエーションで3枚ずつ生成(512x768, z-image-turbo)
- オリジナルと比較して崩れるか・変わらないかを判定
- 崩れない要素 = 不要(削除してトークン節約)
- 崩れる要素 = 必要(残す)
1. 夏祭りポラロイド
テスト1-A: 前置き削除(A Polaroid instant photo of a woman.なし)
![]() | ![]() | ![]() |
結果: 崩れない — 後置きのPolaroid instant film lookが残っているため、ポラロイド風の白枠・色褪せは維持される。前置きと後置きで同じスタイルを二重指定しているので、片方だけでも機能する。
テスト1-B: paper lantern warm lightを削除
![]() | ![]() | ![]() |
結果: 崩れない — 提灯はsummer festivalの連想で自然に出現するため、照明への影響は軽微。
テスト1-C: food stalls blurred in backgroundを削除
![]() | ![]() | ![]() |
結果: 崩れない — outdoor summer festival grounds at duskだけで祭りの背景は十分再現される。「ぼけた屋台」を明示しなくても背景は自然にぼけるし、屋台的な要素も出る。
テスト1-D: cotton candy in handを削除
![]() | ![]() | ![]() |
結果: 意図が変わる — 綿菓子がなくなると「手に何も持っていない浴衣の女性」になる。手の破綻は特にないが、祭りで何かを楽しんでいる感が消える。スタイルは崩れないが、場面の物語性が失われる。手の安定化効果も考えると残すべき。
ラボ長コメント: 綿菓子消したらただ突っ立ってる人になるの、わかるけど寂しいよね。物を持たせるのはポーズ安定にもなるし、削っちゃダメなやつでしょ
テスト1-E: 後置き削除(Polaroid instant film look, slightly faded colors, soft vignette, warm nostalgic tint, fixed focus.なし)
![]() | ![]() | ![]() |
結果: 崩れない — 前置きだけでポラロイド感は十分維持される。
テスト1-F: coherent anatomy.を削除
![]() | ![]() | ![]() |
結果: 変化なし — coherent anatomy検証でも確認済み。z-image-turboでは効果がない。
夏祭りポラロイド:まとめ
| 削除した要素 | 結果 | 判定 |
|---|---|---|
前置き A Polaroid instant photo of a woman. | 後置きでカバー可能 | 不要(後置きとどちらか片方でOK) |
paper lantern warm light | 照明への影響は軽微 | 不要 |
food stalls blurred in background | 祭り感は維持 | 不要 |
cotton candy in hand | 物語性・手の安定化が消失 | 必要 |
| 後置き全体 | 前置きでカバー可能 | 不要(前置きとどちらか片方でOK) |
coherent anatomy. | 変化なし | 不要 |
34語 → 22語(12語削減)。 前置きか後置きのどちらか一方で十分(前置きの方が先頭位置で効きが強い)。paper lantern warm light、food stalls blurred in background、coherent anatomyは不要。
2. 朝のベッドで親密ポートレート
テスト2-A: 前置き削除(An intimate close-up portrait of a woman.なし)
![]() | ![]() | ![]() |
結果: 構図が変わる — close-upの指定がなくなり、やや引きの構図になる傾向がある。親密なクローズアップ感を出すには必要。
テスト2-B: morning light through sheer curtainsを削除
![]() | ![]() | ![]() |
結果: 時間帯が不安定に — 朝の光の指定がなくなったことで時間帯が不安定になり、夜の照明になるケースが発生。ただしwarm ambient lightが残っているため、暖色系の光自体は維持される。
テスト2-C: chin resting on handsを削除
![]() | ![]() | ![]() |
結果: ポーズが変わる — ポーズが枕に横たわる形に変わり、特徴的な頬杖ポーズは出ない。ポーズの安定化として必要。
テスト2-D: half-closed eyesを削除
![]() | ![]() | ![]() |
結果: 表情が変わる — 目がぱっちり開いた画像になり、「寝起き」「まどろみ」の雰囲気が消えて普通のポートレート感に。寝起きの親密さを演出するなら必要。
テスト2-E: 後置き削除(intimate portrait quality, shallow depth of field, soft bokeh background, gentle lighting on face.なし)
![]() | ![]() | ![]() |
結果: 崩れない — 後置きを削除しても前置きのintimate close-up portraitの影響で浅いボケは維持される。明確な品質低下は確認できなかった。
テスト2-F: coherent anatomy, natural skin texture.を削除
![]() | ![]() | ![]() |
結果: 変化なし — 夏祭りと同様、z-image-turboではcoherent anatomyもnatural skin textureも目に見える効果がない。
朝ベッド親密:まとめ
| 削除した要素 | 結果 | 判定 |
|---|---|---|
前置き An intimate close-up portrait of a woman. | 構図がクローズアップでなくなる | 必要 |
morning light through sheer curtains | 時間帯が不安定に | 必要 |
chin resting on hands | 頬杖ポーズが出ない | 必要 |
half-closed eyes | 寝起き感が消える | 必要 |
| 後置き全体 | 前置きでカバー可能 | 不要 |
coherent anatomy, natural skin texture. | 変化なし | 不要 |
39語 → 25語(14語削減)。 後置きは前置きのintimate close-up portraitでカバーされるため不要。coherent anatomy, natural skin texture.も不要。
3. カフェ窓際スナップ(簡略版)
テスト3-A: 長文の不完全さ記述を削除
The photo feels imperfect and unposed: slightly awkward crop, mild smartphone compression, no cinematic lighting or editorial polish.を削除。
![]() | ![]() | ![]() |
結果: カジュアルな構図・自然なライティングは維持 — 前置きのA candid iPhone snapshotが残っているため、カジュアルな構図と自然なライティングは健在。あの長文(21語)を削除しても大きな差がない。トークン効率が悪い要素。
テスト3-B: 前置き削除(A candid iPhone snapshot of an actress in her everyday life.なし)
不完全さの長文も同時に削除されたバージョン。
![]() | ![]() | ![]() |
結果: 一部でプロ写真寄りに — 一部の画像でプロ写真寄りの仕上がりになることがあるが、3枚中1枚程度の傾向。snapshot aestheticが後置きに残っているため完全には崩れない。
カフェスナップ:まとめ
| 削除した要素 | 結果 | 判定 |
|---|---|---|
長文 The photo feels imperfect... (21語) | カジュアルな構図・自然なライティング維持 | 不要 |
前置き A candid iPhone snapshot... | 一部でプロ写真寄りに | 必要 |
42語 → 21語(21語削減 = 50%カット)。 あの長文はA candid iPhone snapshotとsnapshot aestheticで十分カバーされており、大幅な削減が可能。natural skin textureとcoherent anatomyも不要。
全体まとめ:アブレーション検証で分かったこと
不要と判明した要素
| 要素 | 理由 |
|---|---|
coherent anatomy | z-image-turboでは効果なし(3プロンプト共通) |
natural skin texture | 同上 |
| 前置き・後置きの二重指定 | どちらか一方で十分 |
paper lantern warm light | summer festivalの連想で提灯は自然に出現 |
food stalls blurred in background | summer festivalだけで背景は再現される |
The photo feels imperfect and unposed...(21語の長文) | candid iPhone snapshotでカバー済み |
必要と判明した要素
| 要素 | 理由 |
|---|---|
前置きのスタイル指定(A Polaroid instant photo / An intimate close-up portrait / A candid iPhone snapshot) | 先頭位置で最も影響が強い |
cotton candy in hand | 物語性 + 手の安定化 |
morning light through sheer curtains | 時間帯の安定化 |
chin resting on hands | ポーズの安定化 |
half-closed eyes | 表情のコントロール |
削減効果
| プロンプト | オリジナル | 最小限版 | 削減 |
|---|---|---|---|
| 夏祭りポラロイド | 34語 | 22語 | -35% |
| 朝ベッド親密 | 39語 | 25語 | -36% |
| カフェスナップ | 42語 | 21語 | -50% |
教訓
coherent anatomyは捨ててOK — 少なくともz-image-turboでは効果がない- スタイル指定は前置きか後置きの一方で十分 — 二重指定はトークンの無駄
- 長い自然言語の記述より、短いキーワードの方が効率的 — カフェスナップの21語の長文は1語の
snapshot aestheticで代替可能 - 表情・ポーズ・光の指定は削れない — これらは画像の「意図」を決める核心要素
- 環境の暗黙知を活用せよ —
summer festivalと書けば屋台は勝手に出る。わざわざ列挙する必要はない
ラボ長コメント: えっと、3プロンプトとも3割以上削減できたのは大きいですね。特にカフェスナップの50%カットはインパクトがあります。「書かなくてもモデルが補完してくれる部分」を見極めるのがプロンプト最適化の本質みたいです


















































