結論
- face mask と surgical mask は非常に近い出力になる。どちらも使い捨て不織布マスクとして描画され、face maskの方が色のバリエーション(水色・黒・白)が出やすい
- masquerade mask は衣装への影響が大きい。プロンプトに衣装指定がない場合、和服(着物)が3枚すべてで出現する。ただし「casual outfit」や「black evening dress」を明示すると着物化は3枚中0枚に抑えられた
- gas mask はフルフェイス型の軍用ガスマスクとして描画され、顔がほぼ完全に隠れる。衣装指定なしでは和服への衣装変化が3枚すべてで確認されたが、「casual outfit」を明示すると着物化は3枚中0枚に抑えられた
- ski mask はスキーウェア一式への衣装変化を引き起こす。ゴーグル・ヘルメット・スキージャケットがセットで出現し、背景もスキー場に変化する傾向が確認された
- 衣装キーワードの明示は副作用の上書きに有効。masquerade mask・gas maskで発生する着物化は、衣装を明示的に指定することで完全に抑制できた(9枚中0枚で着物が出現)
この記事でわかること
- マスク種類の英語プロンプトによる出力の違い
- マスク指定が衣装・背景に与える副作用の有無
- 各マスクの描画安定性(3シードでの再現性)
- 衣装キーワードの明示でマスクの副作用(着物化)を上書きできるか
実験条件
| 項目 | 値 |
|---|---|
| モデル | z-image-turbo |
| ステップ | 8 |
| サンプラー | euler |
| スケジューラー | ddim_uniform |
| CFG | 1.0 |
| 画像サイズ | 1024×1024 |
| Seed | 42, 123, 789 の3種類を固定使用 |
ベースプロンプト
ベースプロンプト
1girl, 32yo japanese actress, {MASK}, standing, looking at viewer, indoor
{MASK} 部分を条件ごとに差し替える。
条件A: face mask(2トークン)
条件A: face mask
1girl, 32yo japanese actress, face mask, standing, looking at viewer, indoor
| Seed 42 | Seed 123 | Seed 789 |
|---|---|---|
![]() | ![]() | ![]() |
観察
- 3枚すべてで鼻と口を覆う使い捨て不織布タイプのマスクが描画された
- マスクの色は水色(seed42)、黒(seed123)、白(seed789)とバリエーションが出た
- 衣装はカジュアルな私服(ニット、コート、ボーダーTシャツ)で、マスクによる衣装への影響は確認されなかった
- 背景は駅構内(seed42)、壁前(seed123, seed789)で、indoorの指示に概ね従っている
- seed42のみ背景に通行人が含まれ、スナップ写真的な構図になっている
条件B: surgical mask(2トークン)
条件B: surgical mask
1girl, 32yo japanese actress, surgical mask, standing, looking at viewer, indoor
| Seed 42 | Seed 123 | Seed 789 |
|---|---|---|
![]() | ![]() | ![]() |
観察
- 3枚すべてで水色の不織布マスクが描画された。face maskと異なり色が水色に統一されている
- マスクの形状・装着位置はface maskとほぼ同一で、視覚的な差は色の統一性のみ
- 衣装はニット(seed42)、コート+黒トップス(seed123)、チェック柄ジャケット(seed789)とカジュアルな私服
- 背景はすべて壁前で統一されており、face maskのseed42で見られた駅構内のような背景変化はなかった
- 全体的にface maskよりも構図・背景の安定性が高い
条件C: masquerade mask(2トークン)
条件C: masquerade mask
1girl, 32yo japanese actress, masquerade mask, standing, looking at viewer, indoor
| Seed 42 | Seed 123 | Seed 789 |
|---|---|---|
![]() | ![]() | ![]() |
観察
- 3枚すべてで目元を覆うヴェネチアンスタイルのマスクが描画された。金色の縁取りが共通している
- マスクのデザインは黒地+金縁(seed42, seed789)、淡い緑+金縁+植物柄(seed123)とバリエーションがある
- 衣装がすべて和服(着物)に変化している。プロンプトに衣装指定はないが、masquerade maskとの組み合わせで和柄の着物が出現した(3枚中3枚)
- seed42では片手でマスクに触れるポーズが出現し、「looking at viewer」の指示に加えて仮面舞踏会的な仕草が加わっている
- 背景は和室風の室内(額縁、壁)で統一されている
- 構図がバストアップ寄りになり、face mask/surgical maskより顔のアップ度が高い
条件D: gas mask(2トークン)
条件D: gas mask
1girl, 32yo japanese actress, gas mask, standing, looking at viewer, indoor
| Seed 42 | Seed 123 | Seed 789 |
|---|---|---|
![]() | ![]() | ![]() |
観察
- 3枚すべてでフルフェイス型の軍用ガスマスクが描画された。透明なゴーグル部分と両サイドの円筒形フィルターが共通している
- マスクの色はオリーブグリーン系で3枚とも統一されており、再現性が高い
- 衣装がすべて和服(着物)に変化している。masquerade maskと同様の傾向だが、seed42ではマスクの装着ベルトが着物の上に革ベルトとして追加されている
- 顔はゴーグル越しに両目がわずかに見える程度で、5条件中もっとも顔の露出が少ない
- 背景は和室風の壁前で、masquerade maskの結果と類似している
条件E: ski mask(2トークン)
条件E: ski mask
1girl, 32yo japanese actress, ski mask, standing, looking at viewer, indoor
| Seed 42 | Seed 123 | Seed 789 |
|---|---|---|
![]() | ![]() | ![]() |
観察
- 「ski mask」は本来目出し帽(バラクラバ)を指すが、3枚ともスキーウェア装備の一部としてのフェイスマスク+ゴーグルとして描画された
- seed42ではヘルメット+ゴーグル+青い布マスク、seed123ではゴーグル+黒いネックウォーマー型マスク、seed789ではゴーグル+白い不織布マスクと、マスク部分の解釈にばらつきがある
- 衣装がスキーウェア(ジャケット、ゴーグル、ヘルメット)に変化している。3枚すべてでグレー系のスキージャケットが出現した
- 背景がスキー場(屋内スキー場)に変化している(seed42で顕著)。indoorの指示は守られているが、室内の解釈がスキー施設内になっている
- 5条件中もっとも衣装・背景への副作用が大きく、プロンプト全体の文脈を「スキー場面」として上書きする傾向が確認された
実験2: 副作用の上書き検証
実験1でmasquerade maskとgas maskに着物化の副作用が確認された。この副作用は衣装キーワードを明示的に指定することで抑制できるのか検証する。
実験条件
実験1と同一のモデル・パラメータ・Seedを使用。ベースプロンプトの {MASK} 部分に加えて、衣装キーワードを追加する。
条件F: masquerade mask + casual outfit
条件F: masquerade mask + casual outfit
1girl, 32yo japanese actress, masquerade mask, casual outfit, standing, looking at viewer, indoor
| Seed 42 | Seed 123 | Seed 789 |
|---|---|---|
![]() | ![]() | ![]() |
観察
- 3枚すべてで目元を覆うマスクが描画された。金色の無地タイプ(seed42)、黒の装飾タイプ(seed123)、白の装飾タイプ(seed789)とバリエーションがある
- 着物は3枚中0枚で出現しなかった。条件C(masquerade mask単体)では3枚すべてで着物が出現していたのと対照的
- 衣装はデニムジャケット+ボーダーTシャツ+デニムショートパンツ(seed42)、グレーのオーバーコート+黒トップス+ジーンズ(seed123)、ボーダーロングTシャツ(seed789)とカジュアルな私服が出現
- マスクのデザインは条件Cで見られた金縁ヴェネチアンスタイルとは異なり、よりシンプルな形状になっている
- 背景は壁前で統一されており、条件Cの和室風とは異なる
条件G: masquerade mask + black evening dress
条件G: masquerade mask + black evening dress
1girl, 32yo japanese actress, masquerade mask, black evening dress, standing, looking at viewer, indoor
| Seed 42 | Seed 123 | Seed 789 |
|---|---|---|
![]() | ![]() | ![]() |
観察
- 3枚すべてで黒のヴェネチアンマスクが描画された。羽根飾り付きが3枚中3枚で共通しており、条件Cよりも装飾的
- 着物は3枚中0枚で出現しなかった。black evening dressの指定が着物化を抑制している
- 衣装は3枚すべてで黒のロングドレスが描画された。スパンコール付きVネック+スリット入り(seed42)、Vネックのマーメイドライン(seed123)、コルセット風のストラップレス(seed789)とドレスの形状にバリエーションがある
- seed789のみ横向きのポーズになり、「looking at viewer」の指示からやや外れている
- 背景はホテルのロビー風(seed42)、壁前(seed123, seed789)で、条件Cの和室風とは異なる
- masquerade mask + ドレスの組み合わせにより、仮面舞踏会的な雰囲気が強く出ている
条件H: gas mask + casual outfit
条件H: gas mask + casual outfit
1girl, 32yo japanese actress, gas mask, casual outfit, standing, looking at viewer, indoor
| Seed 42 | Seed 123 | Seed 789 |
|---|---|---|
![]() | ![]() | ![]() |
観察
- 3枚すべてでフルフェイス型の軍用ガスマスクが描画された。オリーブグリーンの本体+両サイドの円筒形フィルターという形状は条件Dと同一
- 着物は3枚中0枚で出現しなかった。条件D(gas mask単体)では3枚すべてで着物が出現していたのと対照的
- 衣装はグレーTシャツ+ベージュのチノパン(seed42)、グレーのパーカー(seed123)、グレーのスウェット+ジーンズ(seed789)とカジュアルな私服が出現
- ガスマスクの形状・色は条件Dと同一で、衣装キーワードの追加がマスク自体の描画に影響を与えている様子はない
- 背景は壁前で統一されており、条件Dの和室風とは異なる
まとめ
横断比較: 実験1(マスク種類別)
| 条件 | Seed 42 | Seed 123 | Seed 789 |
|---|---|---|---|
| face mask | ![]() | ![]() | ![]() |
| surgical mask | ![]() | ![]() | ![]() |
| masquerade mask | ![]() | ![]() | ![]() |
| gas mask | ![]() | ![]() | ![]() |
| 条件 | Seed 42 | Seed 123 | Seed 789 |
|---|---|---|---|
| ski mask | ![]() | ![]() | ![]() |
マスクの種類によって、衣装・背景への副作用の大きさが異なる。
- 副作用なし: face mask, surgical mask – 衣装・背景はベースプロンプトの指示に従う
- 衣装に副作用あり: masquerade mask, gas mask – 和服(着物)への変化が3枚中3枚で発生
- 衣装+背景に副作用あり: ski mask – スキーウェア+スキー場への変化が3枚中3枚で発生
face maskとsurgical maskは出力がほぼ同一で、使い分けの必要性は低い。surgical maskの方がマスクの色(水色)が安定するため、特定の色を意図する場合はsurgical maskを選択するとよい。
横断比較: 実験2(副作用の上書き検証)
| 条件 | Seed 42 | Seed 123 | Seed 789 |
|---|---|---|---|
| masquerade mask(衣装指定なし) | ![]() | ![]() | ![]() |
| masquerade mask + casual outfit | ![]() | ![]() | ![]() |
| masquerade mask + black evening dress | ![]() | ![]() | ![]() |
| 条件 | Seed 42 | Seed 123 | Seed 789 |
|---|---|---|---|
| gas mask(衣装指定なし) | ![]() | ![]() | ![]() |
| gas mask + casual outfit | ![]() | ![]() | ![]() |
衣装キーワードの明示により、masquerade maskとgas maskの着物化副作用は完全に抑制された。
| 条件 | 着物出現率 | 衣装の副作用 |
|---|---|---|
| masquerade mask(衣装指定なし) | 3/3 | あり |
| masquerade mask + casual outfit | 0/3 | なし |
| masquerade mask + black evening dress | 0/3 | なし |
| gas mask(衣装指定なし) | 3/3 | あり |
| gas mask + casual outfit | 0/3 | なし |
- 衣装キーワードの追加により、着物化は9枚中0枚に抑えられた
- 「casual outfit」のような抽象的な指定でも上書きに十分な効果がある
- マスク自体の描画(形状・色)は衣装キーワードの追加による影響が確認されなかった
ラボ長コメント
masquerade maskで着物出てくるの、なんで? ski maskはもうスキー場ごと持っていかれてるし。で、casual outfit 一言で着物が消えるの、衣装キーワードの上書き力すごいでしょ。えっと、今回の収穫は「マスク系キーワードは衣装への副作用が大きいから、衣装も同時に指定すべき」という知見ですね。casual outfit みたいな抽象的な指定でも十分効くのは覚えておきたいかなと。


























