結論
主要な意味的属性に差はない
3シーン x 3seed = 9ペアの比較で、構図・ポーズ・服色・表情・ライティング方向・主要オブジェクトの有無は両形式でほぼ同等に再現されました。
ディテールレベルの傾向差
| 傾向 | タグ列 | 自然言語 |
|---|---|---|
| 個別要素の制御性 | やや高い(桜の量、背景のクリーンさ) | — |
| ライティングの柔らかさ | — | やや柔らかい傾向 |
| 「居心地のよさ」の雰囲気 | — | クッション付きベンチ等、文脈的な補完が入る |
| 構図の引き/寄り | やや引き寄り | やや寄り |
実用上の結論
どちらでも良い。 主要属性の再現性に有意な差はなく、好みで選んで問題ありません。
強いて使い分けるなら:
- 要素を正確に制御したい場合 → タグ列(各属性が独立したトークンとして処理されやすい)
- 全体の雰囲気を重視する場合 → 自然言語(文脈による補完で統一感が出やすい)
疑問
AI画像生成のプロンプトには2つの書き方があります。
- タグ列:
1girl, red dress, standing, park, cherry blossoms - 自然言語文:
A girl in a red dress standing in a park with cherry blossoms
どちらが良いのか? 画像に差は出るのか? seed固定で比較します。
実験条件
| 項目 | 値 |
|---|---|
| モデル | z-image-turbo(6B、写実特化蒸留モデル) |
| ステップ | 8 |
| サンプラー | euler / ddim_uniform |
| CFG | 1.0 |
| 画像サイズ | 1024×1024 |
| seed | 100, 200, 300(固定) |
3シーンそれぞれについて、同じ意味のタグ列版と自然言語版を用意し、同一seedで生成して比較します。
シーン1: 桜の公園
タグ列版
1girl, 22yo japanese woman, red dress, standing, park, cherry blossoms, spring, sunny day, smiling
自然言語版
A 22 year old Japanese woman in a red dress standing in a park with cherry blossoms on a sunny spring day, smiling.
seed=100
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
seed=200
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
seed=300
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
桜シーンの観察
| 属性 | 差異 |
|---|---|
| ドレスの色(赤) | 同等。3ペアとも赤 |
| 表情(笑顔) | 同等 |
| 桜の量 | タグ列版が桜の描写がわずかに豊か(2/3ペア) |
| 背景のクリーンさ | タグ列版の方が公園背景がすっきり(2/3ペア) |
| ライティング | 自然言語版の方が光が柔らかい傾向(2/3ペア) |
| 構図 | タグ列版がやや引きの構図になりやすい(2/3ペア) |
シーン2: 図書室
タグ列版
1girl, 22yo japanese woman, sitting on bench, reading book, library, wooden bookshelves, warm lamp light, glasses, focused expression
自然言語版
A 22 year old Japanese woman wearing glasses sits on a bench in a library with wooden bookshelves, reading a book under warm lamp light with a focused expression.
seed=100
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
seed=200
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
seed=300
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
図書室シーンの観察
| 属性 | 差異 |
|---|---|
| メガネの有無 | 同等。3ペアとも両形式で再現 |
| 木製本棚 | 同等 |
| 読書ポーズ | 同等 |
| 暖色ランプライト | 同等 |
| 集中した表情 | 同等 |
| ベンチの質感 | 差異あり: タグ列版は3/3で木製むき出し。自然言語版は3/3でクッション付き |
| 画角 | 自然言語版の方がわずかに広角(2/3ペア) |
原因は不明だが、自然言語版ではクッション付きベンチが生成される傾向が見られた。
ラボ長コメント: 自然言語だとクッションが生える、みたいな文脈補完が勝手に入るの面白いよね。「sits on a bench in a library」って書くと「居心地のいい場所」って解釈されるのかも
シーン3: 雨の夜道
タグ列版
1girl, 22yo japanese woman, black leather jacket, walking, rainy street at night, neon signs, wet pavement reflections, looking back over shoulder
自然言語版
A 22 year old Japanese woman in a black leather jacket walks down a rainy street at night with neon signs, wet pavement reflecting the lights, looking back over her shoulder.
seed=100
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
seed=200
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
seed=300
| タグ列 | 自然言語 |
|---|---|
![]() | ![]() |
雨の夜道シーンの観察
| 属性 | 差異 |
|---|---|
| 構図 | 同等。3ペアともほぼ同一 |
| 振り返りポーズ | 同等 |
| レザージャケット | 同等 |
| ネオン看板 | 同等。配置・量も近い |
| 路面反射 | 同等。両形式とも鮮明 |
| 全体のムード | 同等 |
このシーンでは実質的に差がありませんでした。 同一seedペア間の差は、看板のテキスト細部や衣装のわずかなディテール差のみで、seed変動の範囲内です。
ラボ長コメント: えっと、タグ列と自然言語で主要属性に差がないというのは安心できる結果ですね。好みで選んでいいなら、私はタグ列派です。要素の追加・削除がしやすいので



















