結論
coherent anatomy, correct hands and fingersはz-image-turboでは目に見える効果がありません。
24枚の比較(2シーン × 有無 × 各6枚)で、手指の破綻率・体のバランス・全体の品質のいずれにおいても、有意な差は確認できませんでした。
なぜ効果がないのか
理由はz-image-turboの仕組みにあります。
- z-image-turboはCFG=1.0で動作する蒸留モデル — プロンプトへの追従性がそもそも限定的で、微妙なニュアンス指示(
coherentやcorrect)が効きにくい coherent anatomyは抽象的な概念 — CLIPは「coherent(整合性のある)anatomy(解剖学)」を具体的な画像特徴として理解しているわけではない。hands on hipsのような具体的なポーズ指定の方がはるかに効果的- 8ステップの短い推論 — ステップ数が少ないため、微細な条件付けの差が結果に反映されにくい
ではどうすればいいのか
手指の破綻を防ぐために効果があるのは、coherent anatomyのような抽象的な指示ではなく、具体的なポーズで手を安定させることです。
| テクニック | 例 | 効果 |
|---|---|---|
| 何かを持たせる | holding coffee cup, cotton candy in hand | 手指の形が物体で固定される |
| 体に手を置く | hands on hips, chin resting on hand | 手の位置が決まる |
| 手を隠す | hands in pockets, arms behind back | 描写自体を回避 |
| 特定のポーズ名 | peace sign, waving | 学習データに多い定型ポーズ |
これらは朝ベッドの検証のchin resting on handsや夏祭りの検証のcotton candy in handで実証済みです。
プロンプトから削除して問題ないか
削除して問題ありません。 coherent anatomy, correct hands and fingersの5語(約7トークン)は75トークン制限を無駄に消費しているだけです。その分のトークンを具体的なポーズや環境描写に使う方が効果的です。
AI画像生成のプロンプトでよく見かけるcoherent anatomy, correct hands and fingers。「体の整合性を保つ」「手指を正しく描画する」という意図で使われていますが、z-image-turboで本当に効果があるのか?
24枚の画像で検証しました。
実験設計
2つのシーンで、coherent anatomy, correct hands and fingersの有無だけを変えて各6枚ずつ生成。
- シーンA: プールサイドで腰に手を当てる(hands on hips)— 手指が見えるが比較的安定しやすいポーズ
- シーンB: 公園で手を振る(waving hand with fingers spread)— 指を広げた状態で破綻が出やすいポーズ
各条件6枚なので、たまたまの成功・失敗ではなく傾向として差があるかを確認します。
シーンA: プールサイド × 腰に手
なし(6枚)
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
あり(6枚)
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
シーンAの結果
| 指標 | なし(6枚) | あり(6枚) |
|---|---|---|
| 手指の破綻 | 0〜1枚 | 0〜1枚 |
| 体のバランス | 概ね良好 | 概ね良好 |
| 全体の品質 | 差なし | 差なし |
差が見えない。 hands on hipsは元々安定しやすいポーズなので、coherent anatomyの有無に関わらず手指の描写は安定しています。
シーンB: 公園 × 手振り(指を広げる)
手指の破綻が起きやすい「指を広げて手を振る」ポーズで検証します。
なし(6枚)
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
あり(6枚)
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
シーンBの結果
| 指標 | なし(6枚) | あり(6枚) |
|---|---|---|
| 指が5本に見える | 4〜5枚 | 4〜5枚 |
| 指の融合・消失 | 1〜2枚 | 1〜2枚 |
| 体のバランス | 良好 | 良好 |
ここでも明確な差が見えない。 指を広げた手振りポーズでも、coherent anatomyの有無で破綻率に有意な差は確認できませんでした。
まとめ
| 項目 | 結論 |
|---|---|
| z-image-turboでの効果 | なし(24枚で有意差なし) |
| トークンの無駄 | 約7トークンを浪費 |
| 推奨 | 削除して、具体的なポーズ指定に置き換える |
































