【効果なし】「coherent anatomy」はプロンプトに入れる意味があるのか?24枚で検証

【効果なし】「coherent anatomy」はプロンプトに入れる意味があるのか?24枚で検証

結論

coherent anatomy, correct hands and fingersはz-image-turboでは目に見える効果がありません。

24枚の比較(2シーン × 有無 × 各6枚)で、手指の破綻率・体のバランス・全体の品質のいずれにおいても、有意な差は確認できませんでした。

なぜ効果がないのか

理由はz-image-turboの仕組みにあります。

  1. z-image-turboはCFG=1.0で動作する蒸留モデル — プロンプトへの追従性がそもそも限定的で、微妙なニュアンス指示(coherentcorrect)が効きにくい
  2. coherent anatomyは抽象的な概念 — CLIPは「coherent(整合性のある)anatomy(解剖学)」を具体的な画像特徴として理解しているわけではない。hands on hipsのような具体的なポーズ指定の方がはるかに効果的
  3. 8ステップの短い推論 — ステップ数が少ないため、微細な条件付けの差が結果に反映されにくい

ではどうすればいいのか

手指の破綻を防ぐために効果があるのは、coherent anatomyのような抽象的な指示ではなく、具体的なポーズで手を安定させることです。

テクニック効果
何かを持たせるholding coffee cup, cotton candy in hand手指の形が物体で固定される
体に手を置くhands on hips, chin resting on hand手の位置が決まる
手を隠すhands in pockets, arms behind back描写自体を回避
特定のポーズ名peace sign, waving学習データに多い定型ポーズ

これらは朝ベッドの検証chin resting on hands夏祭りの検証cotton candy in handで実証済みです。

プロンプトから削除して問題ないか

削除して問題ありません。 coherent anatomy, correct hands and fingersの5語(約7トークン)は75トークン制限を無駄に消費しているだけです。その分のトークンを具体的なポーズや環境描写に使う方が効果的です。

AI画像生成のプロンプトでよく見かけるcoherent anatomy, correct hands and fingers。「体の整合性を保つ」「手指を正しく描画する」という意図で使われていますが、z-image-turboで本当に効果があるのか?

24枚の画像で検証しました。

実験設計

2つのシーンで、coherent anatomy, correct hands and fingersの有無だけを変えて各6枚ずつ生成。

  • シーンA: プールサイドで腰に手を当てる(hands on hips)— 手指が見えるが比較的安定しやすいポーズ
  • シーンB: 公園で手を振る(waving hand with fingers spread)— 指を広げた状態で破綻が出やすいポーズ

各条件6枚なので、たまたまの成功・失敗ではなく傾向として差があるかを確認します。

シーンA: プールサイド × 腰に手

なし(6枚)

シーンA: coherent anatomyなし
a 20yo japanese woman, full body, standing at poolside, white bikini, hands on hips, bright sunlight, photorealistic
123
456

あり(6枚)

シーンA: coherent anatomyあり
a 20yo japanese woman, full body, standing at poolside, white bikini, hands on hips, bright sunlight, photorealistic. coherent anatomy, correct hands and fingers.
789
101112

シーンAの結果

指標なし(6枚)あり(6枚)
手指の破綻0〜1枚0〜1枚
体のバランス概ね良好概ね良好
全体の品質差なし差なし

差が見えない。 hands on hipsは元々安定しやすいポーズなので、coherent anatomyの有無に関わらず手指の描写は安定しています。

シーンB: 公園 × 手振り(指を広げる)

手指の破綻が起きやすい「指を広げて手を振る」ポーズで検証します。

なし(6枚)

シーンB: coherent anatomyなし
a 20yo japanese woman, full body, standing in a park, white summer dress, waving hand with fingers spread, natural daylight, photorealistic
123
456

あり(6枚)

シーンB: coherent anatomyあり
a 20yo japanese woman, full body, standing in a park, white summer dress, waving hand with fingers spread, natural daylight, photorealistic. coherent anatomy, correct hands and fingers.
789
101112

シーンBの結果

指標なし(6枚)あり(6枚)
指が5本に見える4〜5枚4〜5枚
指の融合・消失1〜2枚1〜2枚
体のバランス良好良好

ここでも明確な差が見えない。 指を広げた手振りポーズでも、coherent anatomyの有無で破綻率に有意な差は確認できませんでした。

まとめ

項目結論
z-image-turboでの効果なし(24枚で有意差なし)
トークンの無駄約7トークンを浪費
推奨削除して、具体的なポーズ指定に置き換える

関連記事