seed変動ベースライン — 同じプロンプトで何が変わり、何が変わらないか

seed変動ベースライン — 同じプロンプトで何が変わり、何が変わらないか

結論

プロンプトで制御できる属性(seed変動に強い)

属性安定度条件
構図(フレーミング・アングル)9/9シーン描写タグが具体的であれば
体の向き・視線方向9/9looking out window, looking at viewer
表情9/9smiling, gentle expression
姿勢9/9standing, sitting
服の色と形9/9beige oversized knit sweater のように具体的に
髪色9/9未指定でも「japanese woman」で安定
ライティングの方向と質9/9natural overcast daylight through glass
オブジェクトの保持9/9holding cotton candy
スタイル(ポラロイド等)8/9高い安定度だが100%ではない

seedごとにランダム化される属性(制御困難)

属性変動度備考
顔(人相)毎回別人「若い日本人女性」の範囲内で変動
服の柄・ディテール毎回異なる色と形は制御可能だが柄は不安定
背景の具体的な内容毎回異なる「カフェ」は安定するが「どのカフェか」は毎回別
小物の有無・種類毎回異なるテーブル上のカップ等、未指定の小物はランダム
髪の長さ小幅に変動ミディアム〜セミロングの範囲
手の具体的な位置2-3パターン頬杖 vs 膝上、片手 vs 両手

重要な発見

1. 「プロンプトで明示した属性は安定し、未指定の属性はランダム化される」

これが最も明確なパターンです。beige oversized knit sweaterと指定すれば9/9で再現されますが、シンプルプロンプトで服装を指定しなければ9枚すべて別の服になります。

2. white backgroundはモデルに無視される

9枚すべてがグレー〜ブラウンの壁+床になりました。z-image-turboは「人物の立ちポーズ写真」のデータセット的な背景を強く出力する傾向があり、white backgroundは有効な指示ではありません。

3. 顔は制御できない

毎回別人が生成されます。「若い日本人女性」という大枠は安定しますが、顔立ちの個体差はseedに完全に依存します。

4. 今後の検証への示唆

seed未固定で2つのプロンプトを比較する場合、以下の属性の差はseed変動の範囲内であり、プロンプト変更の効果とは言えません:

  • 顔立ちの違い
  • 服の柄の違い
  • 背景の具体的な内容の違い
  • 髪の長さの微差(ボブ〜セミロング)
  • 手の位置の違い(頬杖 vs 膝上)
  • 全体の色味の微差(ウォーム〜クールニュートラル)

逆に、以下の属性が変わった場合はプロンプト変更の効果である可能性が高いです:

  • 構図(全身→バストアップ等)
  • 体の向きや視線方向
  • 表情の種類
  • ライティングの方向や質
  • 服の色・形の変化
  • 特定のオブジェクトの有無

この実験の目的

AI画像生成では、同じプロンプトでもseed(乱数の種)が異なれば違う画像が出ます。ではプロンプトの要素を変えた時に見える差は、プロンプト変更の効果なのか、それともseedが変わっただけの自然な揺れなのか?

この判断基準がないと、「この要素を削ったら画像が変わった」という主張が成り立ちません。本実験では、同一プロンプトでseedだけ変えた画像を9枚ずつ生成し、何が安定して何が変動するかを観察します。

実験条件

項目
モデルz-image-turbo(6B、写実特化蒸留モデル)
ステップ8
サンプラーeuler
スケジューラーddim_uniform
CFG1.0
画像サイズ1024×1024
seedランダム9種(プロンプトごと)

使用プロンプト

3本のプロンプトを用意し、シーン描写の具体性を段階的に変えました。

A: シンプル(10語)
1girl, 22yo japanese woman, white background, standing, smiling
B: 中程度(17語)
1girl, 22yo japanese actress, small cafe window seat, natural overcast daylight through glass, beige oversized knit sweater, sitting, looking out window, gentle natural expression.
C: 複雑(25語)
polaroid photo, 1girl, 20yo japanese woman, yukata, holding cotton candy, summer festival, food stalls blurred in background, warm golden hour light, gentle smile, looking at viewer.

A: シンプルプロンプトの結果

012
345
678

観察結果

属性安定度詳細
人物位置安定9枚すべて画面中央
姿勢安定9枚すべて直立
表情安定9枚すべて歯を見せた笑顔
髪色安定9枚すべてダークブラウン、前髪あり
ライティング安定9枚すべて柔らかい正面光
フレーミング変動あり全身7枚 / ウエスト〜膝上2枚
髪の長さ変動ありボブ〜肩丈4枚 / セミロング5枚
手の位置変動あり体側6枚 / 体前で組む3枚
服装大きく変動9枚すべて異なる服(ワンピース、Tシャツ+スカート、ブラウス+ジーンズ等)
背景大きく変動white background指定にも関わらず9枚すべてグレー〜ブラウンの壁

シンプルプロンプトの特徴

  • 指定した属性(人物・年齢・姿勢・表情)は安定して再現される
  • 未指定の属性(服装)はseedごとに完全にランダム化される
  • white backgroundはモデルに無視された — 9枚すべてがスタジオの壁+床の構図。モデルが「人物の立ちポーズ写真」のデータセット的な背景を強く出力する傾向
  • 顔は同一人物ではないが、類似度は高い(丸顔寄り、大きめの目)

B: カフェスナッププロンプトの結果

012
345
678

観察結果

属性安定度詳細
フレーミング安定9枚すべてバストアップ〜ウエストアップ
カメラアングル安定9枚すべて正面やや左から
体の向き・視線安定9枚すべて窓方向(右)を向いている
表情安定9枚すべて穏やかで自然な表情
セーターの色・形安定9枚すべてベージュ、オーバーサイズ、クルーネック
髪色・前髪安定9枚すべてダークブラウン、前髪あり
光の方向・質安定9枚すべて窓(左)からの柔らかい拡散光
手のポーズ変動あり頬杖3枚 / 膝上・テーブル下6枚
髪の長さ変動ありミディアム4枚 / セミロング5枚
色味変動ありウォーム3枚 / ニュートラル4枚 / クールニュートラル2枚
カフェ内装大きく変動9枚すべて異なるカフェ(窓枠・椅子・照明・壁材が毎回別)
窓外の風景大きく変動街路樹の種類、建物、車の配置が毎回異なる
テーブル上の小物大きく変動なし / スマホ / コーヒーカップ / アイスラテ / グラス等

カフェプロンプトの特徴

  • シーン描写タグが構図を強力にロックする — 9枚すべてで「窓際に座って外を見る」構図・アングルが一致
  • 服装(セーター)の色と形が完璧に再現 — 具体的に指定すれば服装も安定する
  • 一方、具体的に指定していない細部(カフェの内装、窓外の風景、小物)は毎回完全に別物
  • 顔は毎回別人だが、「若い日本人女性」の範囲内

ラボ長コメント: beige oversized knit sweater が9枚中9枚で再現されるの、プロンプトの具体性って大事なんだなって改めて思う

C: 夏祭りポラロイドプロンプトの結果

012
345
678

観察結果

属性安定度詳細
人物位置安定9枚すべて画面中央付近
フレーミング安定9枚すべてウエストアップ〜バストアップ
体の向き安定9枚すべてほぼ正面
視線方向安定9枚すべてカメラ方向(looking at viewerに忠実)
表情安定9枚すべて微笑み〜笑顔
綿菓子の保持安定9枚すべて綿菓子を手に持っている
浴衣着用安定9枚すべて浴衣(白〜クリーム系ベース)
背景に屋台安定9枚すべて屋台が描かれている
暖色ライティング安定8枚で暖色系(1枚がやや青寄り)
ポラロイド白フレーム安定8枚でフレームあり(1枚がスクエアフィルム風)
髪型変動ありダウンスタイル7枚 / アップスタイル2枚
縦横比変動あり縦7枚 / 横2枚
綿菓子の位置・持ち方変動あり片手4枚 / 両手5枚。位置は左・中央・右に分散
浴衣の柄大きく変動花柄は共通だが色・サイズ・密度が毎回異なる
帯の色大きく変動紫、ピンク、金、暗緑等
ポラロイドの提示方法変動あり布の上に置く6枚 / 手で持つ1枚 / 写真外に背景が続く1枚 / フレームなし1枚

夏祭りプロンプトの特徴

  • スタイルキーワードpolaroid photoは8/9でフレーム再現 — 高い安定度だが100%ではない
  • holding cotton candyは9/9で再現 — オブジェクトの保持指定は非常に安定
  • 浴衣のベース色(白〜クリーム)は安定するが、柄と帯は毎回異なる — 「yukata」だけでは柄は制御できない
  • 1枚でスクエアフィルム風(フレームなし)が出現 — polaroidが「フィルム写真全般」として解釈されるケース

ラボ長コメント: えっと、「明示した属性は安定、未指定はランダム」というルールがはっきり出ましたね。服装を9枚全部変えたくないなら具体的に書く、逆にバリエーションが欲しいなら書かない。この使い分けは今後の検証の基本になりそうです

関連記事