タグ列 vs 自然言語文 — プロンプトの書き方で画像は変わるか

タグ列 vs 自然言語文 — プロンプトの書き方で画像は変わるか

結論

主要な意味的属性に差はない

3シーン x 3seed = 9ペアの比較で、構図・ポーズ・服色・表情・ライティング方向・主要オブジェクトの有無は両形式でほぼ同等に再現されました。

ディテールレベルの傾向差

傾向タグ列自然言語
個別要素の制御性やや高い(桜の量、背景のクリーンさ)
ライティングの柔らかさやや柔らかい傾向
「居心地のよさ」の雰囲気クッション付きベンチ等、文脈的な補完が入る
構図の引き/寄りやや引き寄りやや寄り

実用上の結論

どちらでも良い。 主要属性の再現性に有意な差はなく、好みで選んで問題ありません。

強いて使い分けるなら:

  • 要素を正確に制御したい場合 → タグ列(各属性が独立したトークンとして処理されやすい)
  • 全体の雰囲気を重視する場合 → 自然言語(文脈による補完で統一感が出やすい)

疑問

AI画像生成のプロンプトには2つの書き方があります。

  • タグ列: 1girl, red dress, standing, park, cherry blossoms
  • 自然言語文: A girl in a red dress standing in a park with cherry blossoms

どちらが良いのか? 画像に差は出るのか? seed固定で比較します。

実験条件

項目
モデルz-image-turbo(6B、写実特化蒸留モデル)
ステップ8
サンプラーeuler / ddim_uniform
CFG1.0
画像サイズ1024×1024
seed100, 200, 300(固定)

3シーンそれぞれについて、同じ意味のタグ列版と自然言語版を用意し、同一seedで生成して比較します。

シーン1: 桜の公園

タグ列版
1girl, 22yo japanese woman, red dress, standing, park, cherry blossoms, spring, sunny day, smiling
自然言語版
A 22 year old Japanese woman in a red dress standing in a park with cherry blossoms on a sunny spring day, smiling.

seed=100

タグ列自然言語
tagnat

seed=200

タグ列自然言語
tagnat

seed=300

タグ列自然言語
tagnat

桜シーンの観察

属性差異
ドレスの色(赤)同等。3ペアとも赤
表情(笑顔)同等
桜の量タグ列版が桜の描写がわずかに豊か(2/3ペア)
背景のクリーンさタグ列版の方が公園背景がすっきり(2/3ペア)
ライティング自然言語版の方が光が柔らかい傾向(2/3ペア)
構図タグ列版がやや引きの構図になりやすい(2/3ペア)

シーン2: 図書室

タグ列版
1girl, 22yo japanese woman, sitting on bench, reading book, library, wooden bookshelves, warm lamp light, glasses, focused expression
自然言語版
A 22 year old Japanese woman wearing glasses sits on a bench in a library with wooden bookshelves, reading a book under warm lamp light with a focused expression.

seed=100

タグ列自然言語
tagnat

seed=200

タグ列自然言語
tagnat

seed=300

タグ列自然言語
tagnat

図書室シーンの観察

属性差異
メガネの有無同等。3ペアとも両形式で再現
木製本棚同等
読書ポーズ同等
暖色ランプライト同等
集中した表情同等
ベンチの質感差異あり: タグ列版は3/3で木製むき出し。自然言語版は3/3でクッション付き
画角自然言語版の方がわずかに広角(2/3ペア)

原因は不明だが、自然言語版ではクッション付きベンチが生成される傾向が見られた。

ラボ長コメント: 自然言語だとクッションが生える、みたいな文脈補完が勝手に入るの面白いよね。「sits on a bench in a library」って書くと「居心地のいい場所」って解釈されるのかも

シーン3: 雨の夜道

タグ列版
1girl, 22yo japanese woman, black leather jacket, walking, rainy street at night, neon signs, wet pavement reflections, looking back over shoulder
自然言語版
A 22 year old Japanese woman in a black leather jacket walks down a rainy street at night with neon signs, wet pavement reflecting the lights, looking back over her shoulder.

seed=100

タグ列自然言語
tagnat

seed=200

タグ列自然言語
tagnat

seed=300

タグ列自然言語
tagnat

雨の夜道シーンの観察

属性差異
構図同等。3ペアともほぼ同一
振り返りポーズ同等
レザージャケット同等
ネオン看板同等。配置・量も近い
路面反射同等。両形式とも鮮明
全体のムード同等

このシーンでは実質的に差がありませんでした。 同一seedペア間の差は、看板のテキスト細部や衣装のわずかなディテール差のみで、seed変動の範囲内です。

ラボ長コメント: えっと、タグ列と自然言語で主要属性に差がないというのは安心できる結果ですね。好みで選んでいいなら、私はタグ列派です。要素の追加・削除がしやすいので

関連記事