結論
プロンプトで制御できる属性(seed変動に強い)
| 属性 | 安定度 | 条件 |
|---|---|---|
| 構図(フレーミング・アングル) | 9/9 | シーン描写タグが具体的であれば |
| 体の向き・視線方向 | 9/9 | looking out window, looking at viewer 等 |
| 表情 | 9/9 | smiling, gentle expression 等 |
| 姿勢 | 9/9 | standing, sitting 等 |
| 服の色と形 | 9/9 | beige oversized knit sweater のように具体的に |
| 髪色 | 9/9 | 未指定でも「japanese woman」で安定 |
| ライティングの方向と質 | 9/9 | natural overcast daylight through glass 等 |
| オブジェクトの保持 | 9/9 | holding cotton candy 等 |
| スタイル(ポラロイド等) | 8/9 | 高い安定度だが100%ではない |
seedごとにランダム化される属性(制御困難)
| 属性 | 変動度 | 備考 |
|---|---|---|
| 顔(人相) | 毎回別人 | 「若い日本人女性」の範囲内で変動 |
| 服の柄・ディテール | 毎回異なる | 色と形は制御可能だが柄は不安定 |
| 背景の具体的な内容 | 毎回異なる | 「カフェ」は安定するが「どのカフェか」は毎回別 |
| 小物の有無・種類 | 毎回異なる | テーブル上のカップ等、未指定の小物はランダム |
| 髪の長さ | 小幅に変動 | ミディアム〜セミロングの範囲 |
| 手の具体的な位置 | 2-3パターン | 頬杖 vs 膝上、片手 vs 両手 |
重要な発見
1. 「プロンプトで明示した属性は安定し、未指定の属性はランダム化される」
これが最も明確なパターンです。beige oversized knit sweaterと指定すれば9/9で再現されますが、シンプルプロンプトで服装を指定しなければ9枚すべて別の服になります。
2. white backgroundはモデルに無視される
9枚すべてがグレー〜ブラウンの壁+床になりました。z-image-turboは「人物の立ちポーズ写真」のデータセット的な背景を強く出力する傾向があり、white backgroundは有効な指示ではありません。
3. 顔は制御できない
毎回別人が生成されます。「若い日本人女性」という大枠は安定しますが、顔立ちの個体差はseedに完全に依存します。
4. 今後の検証への示唆
seed未固定で2つのプロンプトを比較する場合、以下の属性の差はseed変動の範囲内であり、プロンプト変更の効果とは言えません:
- 顔立ちの違い
- 服の柄の違い
- 背景の具体的な内容の違い
- 髪の長さの微差(ボブ〜セミロング)
- 手の位置の違い(頬杖 vs 膝上)
- 全体の色味の微差(ウォーム〜クールニュートラル)
逆に、以下の属性が変わった場合はプロンプト変更の効果である可能性が高いです:
- 構図(全身→バストアップ等)
- 体の向きや視線方向
- 表情の種類
- ライティングの方向や質
- 服の色・形の変化
- 特定のオブジェクトの有無
この実験の目的
AI画像生成では、同じプロンプトでもseed(乱数の種)が異なれば違う画像が出ます。ではプロンプトの要素を変えた時に見える差は、プロンプト変更の効果なのか、それともseedが変わっただけの自然な揺れなのか?
この判断基準がないと、「この要素を削ったら画像が変わった」という主張が成り立ちません。本実験では、同一プロンプトでseedだけ変えた画像を9枚ずつ生成し、何が安定して何が変動するかを観察します。
実験条件
| 項目 | 値 |
|---|---|
| モデル | z-image-turbo(6B、写実特化蒸留モデル) |
| ステップ | 8 |
| サンプラー | euler |
| スケジューラー | ddim_uniform |
| CFG | 1.0 |
| 画像サイズ | 1024×1024 |
| seed | ランダム9種(プロンプトごと) |
使用プロンプト
3本のプロンプトを用意し、シーン描写の具体性を段階的に変えました。
A: シンプルプロンプトの結果
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
観察結果
| 属性 | 安定度 | 詳細 |
|---|---|---|
| 人物位置 | 安定 | 9枚すべて画面中央 |
| 姿勢 | 安定 | 9枚すべて直立 |
| 表情 | 安定 | 9枚すべて歯を見せた笑顔 |
| 髪色 | 安定 | 9枚すべてダークブラウン、前髪あり |
| ライティング | 安定 | 9枚すべて柔らかい正面光 |
| フレーミング | 変動あり | 全身7枚 / ウエスト〜膝上2枚 |
| 髪の長さ | 変動あり | ボブ〜肩丈4枚 / セミロング5枚 |
| 手の位置 | 変動あり | 体側6枚 / 体前で組む3枚 |
| 服装 | 大きく変動 | 9枚すべて異なる服(ワンピース、Tシャツ+スカート、ブラウス+ジーンズ等) |
| 背景 | 大きく変動 | white background指定にも関わらず9枚すべてグレー〜ブラウンの壁 |
シンプルプロンプトの特徴
- 指定した属性(人物・年齢・姿勢・表情)は安定して再現される
- 未指定の属性(服装)はseedごとに完全にランダム化される
white backgroundはモデルに無視された — 9枚すべてがスタジオの壁+床の構図。モデルが「人物の立ちポーズ写真」のデータセット的な背景を強く出力する傾向- 顔は同一人物ではないが、類似度は高い(丸顔寄り、大きめの目)
B: カフェスナッププロンプトの結果
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
観察結果
| 属性 | 安定度 | 詳細 |
|---|---|---|
| フレーミング | 安定 | 9枚すべてバストアップ〜ウエストアップ |
| カメラアングル | 安定 | 9枚すべて正面やや左から |
| 体の向き・視線 | 安定 | 9枚すべて窓方向(右)を向いている |
| 表情 | 安定 | 9枚すべて穏やかで自然な表情 |
| セーターの色・形 | 安定 | 9枚すべてベージュ、オーバーサイズ、クルーネック |
| 髪色・前髪 | 安定 | 9枚すべてダークブラウン、前髪あり |
| 光の方向・質 | 安定 | 9枚すべて窓(左)からの柔らかい拡散光 |
| 手のポーズ | 変動あり | 頬杖3枚 / 膝上・テーブル下6枚 |
| 髪の長さ | 変動あり | ミディアム4枚 / セミロング5枚 |
| 色味 | 変動あり | ウォーム3枚 / ニュートラル4枚 / クールニュートラル2枚 |
| カフェ内装 | 大きく変動 | 9枚すべて異なるカフェ(窓枠・椅子・照明・壁材が毎回別) |
| 窓外の風景 | 大きく変動 | 街路樹の種類、建物、車の配置が毎回異なる |
| テーブル上の小物 | 大きく変動 | なし / スマホ / コーヒーカップ / アイスラテ / グラス等 |
カフェプロンプトの特徴
- シーン描写タグが構図を強力にロックする — 9枚すべてで「窓際に座って外を見る」構図・アングルが一致
- 服装(セーター)の色と形が完璧に再現 — 具体的に指定すれば服装も安定する
- 一方、具体的に指定していない細部(カフェの内装、窓外の風景、小物)は毎回完全に別物
- 顔は毎回別人だが、「若い日本人女性」の範囲内
ラボ長コメント:
beige oversized knit sweaterが9枚中9枚で再現されるの、プロンプトの具体性って大事なんだなって改めて思う
C: 夏祭りポラロイドプロンプトの結果
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
観察結果
| 属性 | 安定度 | 詳細 |
|---|---|---|
| 人物位置 | 安定 | 9枚すべて画面中央付近 |
| フレーミング | 安定 | 9枚すべてウエストアップ〜バストアップ |
| 体の向き | 安定 | 9枚すべてほぼ正面 |
| 視線方向 | 安定 | 9枚すべてカメラ方向(looking at viewerに忠実) |
| 表情 | 安定 | 9枚すべて微笑み〜笑顔 |
| 綿菓子の保持 | 安定 | 9枚すべて綿菓子を手に持っている |
| 浴衣着用 | 安定 | 9枚すべて浴衣(白〜クリーム系ベース) |
| 背景に屋台 | 安定 | 9枚すべて屋台が描かれている |
| 暖色ライティング | 安定 | 8枚で暖色系(1枚がやや青寄り) |
| ポラロイド白フレーム | 安定 | 8枚でフレームあり(1枚がスクエアフィルム風) |
| 髪型 | 変動あり | ダウンスタイル7枚 / アップスタイル2枚 |
| 縦横比 | 変動あり | 縦7枚 / 横2枚 |
| 綿菓子の位置・持ち方 | 変動あり | 片手4枚 / 両手5枚。位置は左・中央・右に分散 |
| 浴衣の柄 | 大きく変動 | 花柄は共通だが色・サイズ・密度が毎回異なる |
| 帯の色 | 大きく変動 | 紫、ピンク、金、暗緑等 |
| ポラロイドの提示方法 | 変動あり | 布の上に置く6枚 / 手で持つ1枚 / 写真外に背景が続く1枚 / フレームなし1枚 |
夏祭りプロンプトの特徴
- スタイルキーワード
polaroid photoは8/9でフレーム再現 — 高い安定度だが100%ではない holding cotton candyは9/9で再現 — オブジェクトの保持指定は非常に安定- 浴衣のベース色(白〜クリーム)は安定するが、柄と帯は毎回異なる — 「yukata」だけでは柄は制御できない
- 1枚でスクエアフィルム風(フレームなし)が出現 —
polaroidが「フィルム写真全般」として解釈されるケース
ラボ長コメント: えっと、「明示した属性は安定、未指定はランダム」というルールがはっきり出ましたね。服装を9枚全部変えたくないなら具体的に書く、逆にバリエーションが欲しいなら書かない。この使い分けは今後の検証の基本になりそうです




























