タグ列 vs 自然言語文 — プロンプトの書き方で画像は変わるか

結論

主要な意味的属性に差はない

3シーン x 3seed = 9ペアの比較で、構図・ポーズ・服色・表情・ライティング方向・主要オブジェクトの有無は両形式でほぼ同等に再現されました。

ディテールレベルの傾向差

傾向	タグ列	自然言語
個別要素の制御性	やや高い（桜の量、背景のクリーンさ）	—
ライティングの柔らかさ	—	やや柔らかい傾向
「居心地のよさ」の雰囲気	—	クッション付きベンチ等、文脈的な補完が入る
構図の引き/寄り	やや引き寄り	やや寄り

実用上の結論

どちらでも良い。 主要属性の再現性に有意な差はなく、好みで選んで問題ありません。

強いて使い分けるなら:

要素を正確に制御したい場合 → タグ列（各属性が独立したトークンとして処理されやすい）
全体の雰囲気を重視する場合 → 自然言語（文脈による補完で統一感が出やすい）

疑問

AI画像生成のプロンプトには2つの書き方があります。

タグ列: 1girl, red dress, standing, park, cherry blossoms
自然言語文: A girl in a red dress standing in a park with cherry blossoms

どちらが良いのか？画像に差は出るのか？ seed固定で比較します。

実験条件

項目	値
モデル	z-image-turbo（6B、写実特化蒸留モデル）
ステップ	8
サンプラー	euler / ddim_uniform
CFG	1.0
画像サイズ	1024×1024
seed	100, 200, 300（固定）

3シーンそれぞれについて、同じ意味のタグ列版と自然言語版を用意し、同一seedで生成して比較します。

シーン1: 桜の公園

タグ列版

1girl, 22yo japanese woman, red dress, standing, park, cherry blossoms, spring, sunny day, smiling

自然言語版

A 22 year old Japanese woman in a red dress standing in a park with cherry blossoms on a sunny spring day, smiling.

seed=100

タグ列	自然言語

seed=200

タグ列	自然言語

seed=300

タグ列	自然言語

桜シーンの観察

属性	差異
ドレスの色（赤）	同等。3ペアとも赤
表情（笑顔）	同等
桜の量	タグ列版が桜の描写がわずかに豊か（2/3ペア）
背景のクリーンさ	タグ列版の方が公園背景がすっきり（2/3ペア）
ライティング	自然言語版の方が光が柔らかい傾向（2/3ペア）
構図	タグ列版がやや引きの構図になりやすい（2/3ペア）

シーン2: 図書室

タグ列版

1girl, 22yo japanese woman, sitting on bench, reading book, library, wooden bookshelves, warm lamp light, glasses, focused expression

自然言語版

A 22 year old Japanese woman wearing glasses sits on a bench in a library with wooden bookshelves, reading a book under warm lamp light with a focused expression.

seed=100

タグ列	自然言語

seed=200

タグ列	自然言語

seed=300

タグ列	自然言語

図書室シーンの観察

属性	差異
メガネの有無	同等。3ペアとも両形式で再現
木製本棚	同等
読書ポーズ	同等
暖色ランプライト	同等
集中した表情	同等
ベンチの質感	差異あり: タグ列版は3/3で木製むき出し。自然言語版は3/3でクッション付き
画角	自然言語版の方がわずかに広角（2/3ペア）

原因は不明だが、自然言語版ではクッション付きベンチが生成される傾向が見られた。

ラボ長コメント: 自然言語だとクッションが生える、みたいな文脈補完が勝手に入るの面白いよね。「sits on a bench in a library」って書くと「居心地のいい場所」って解釈されるのかも

シーン3: 雨の夜道

タグ列版

1girl, 22yo japanese woman, black leather jacket, walking, rainy street at night, neon signs, wet pavement reflections, looking back over shoulder

自然言語版

A 22 year old Japanese woman in a black leather jacket walks down a rainy street at night with neon signs, wet pavement reflecting the lights, looking back over her shoulder.

seed=100

タグ列	自然言語

seed=200

タグ列	自然言語

seed=300

タグ列	自然言語

雨の夜道シーンの観察

属性	差異
構図	同等。3ペアともほぼ同一
振り返りポーズ	同等
レザージャケット	同等
ネオン看板	同等。配置・量も近い
路面反射	同等。両形式とも鮮明
全体のムード	同等

このシーンでは実質的に差がありませんでした。 同一seedペア間の差は、看板のテキスト細部や衣装のわずかなディテール差のみで、seed変動の範囲内です。

ラボ長コメント: えっと、タグ列と自然言語で主要属性に差がないというのは安心できる結果ですね。好みで選んでいいなら、私はタグ列派です。要素の追加・削除がしやすいので

PR RunPod クラウドGPUでAI画像生成 RunPodを始める →

結論

主要な意味的属性に差はない

ディテールレベルの傾向差

実用上の結論

疑問

実験条件

シーン1: 桜の公園

seed=100

seed=200

seed=300

桜シーンの観察

シーン2: 図書室

seed=100

seed=200

seed=300

図書室シーンの観察

シーン3: 雨の夜道

seed=100

seed=200

seed=300

雨の夜道シーンの観察

関連記事

【検証済み】画像生成プロンプトのベストプラクティス

seed変動ベースライン — 同じプロンプトで何が変わり、何が変わらないか