結論
- カフェスナップはStep 1の時点で修正不要の完成度だった プロンプトの完成度が高ければ一発で決まるテーマ
The photo feels imperfect and unposedという自然言語記述がz-image-turboでも効く 長文の英語記述もある程度理解される- 場面の整合性が高いと成功率が上がる カフェ+ニット+窓際+曇天という矛盾のない組み合わせがAIを迷わせない
- 9枚とも安定して意図通り 物理的に複雑な要素がなく、日常スナップ的な構図を安定して生成できた
ゴール: カフェの窓際でニットを着た女性が窓の外を眺めている。スマホで何気なく撮った素人っぽいスナップ写真。プロの撮影ではない自然な空気感。
Step 0: まずはシンプルに
何も考えず、シーンの骨格だけを書きます。
Step 0(7語)
a woman sitting by a cafe window
| 結果1 | 結果2 | 結果3 |
|---|---|---|
![]() | ![]() | ![]() |
「カフェの窓際に座る女性」は出ますが、以下の問題があります:
- 整った構図のストックフォト的な雰囲気が出てしまう
- 服装・表情がランダム
- 「スナップ写真」の空気感がない
Step 1: 属性・服装・スナップ感を全部入れる(46語・最終版)
カフェスナップはStep 1の時点で意図通りの結果が出た珍しいケースです。
ポイントはThe photo feels imperfect and unposedという長文の自然言語記述。「不完全で、ポーズを取っていない」という写真の空気感をそのまま英語で書いています。
Step 1 / 最終版(46語)
A candid iPhone snapshot of an actress in her everyday life. 1girl, 22yo japanese woman, small cafe window seat, natural overcast daylight through glass, beige oversized knit sweater, sitting, looking out window, gentle natural expression. The photo feels imperfect and unposed: slightly awkward crop, mild smartphone compression, no cinematic lighting or editorial polish. photorealistic, snapshot aesthetic.
- a woman sitting by a cafe window
+ A candid iPhone snapshot of an actress in her everyday life. 1girl, 22yo japanese woman, small cafe window seat, natural overcast daylight through glass, beige oversized knit sweater, sitting, looking out window, gentle natural expression. The photo feels imperfect and unposed: slightly awkward crop, mild smartphone compression, no cinematic lighting or editorial polish. photorealistic, snapshot aesthetic.
追加した要素:
A candid iPhone snapshot of an actress in her everyday life– 冒頭でスナップ写真であることを宣言natural overcast daylight through glass– 窓越しの曇天の自然光beige oversized knit sweater– オーバーサイズニットで「日常感」The photo feels imperfect and unposed– 不完全さの宣言(これが最重要)slightly awkward crop, mild smartphone compression– スマホ撮影の特徴を具体化no cinematic lighting or editorial polish– プロっぽさの排除
| 結果1 | 結果2 | 結果3 |
|---|---|---|
![]() | ![]() | ![]() |
結果: 修正不要
3枚とも意図通り。 特筆すべき点:
- Step 0と比べて構図が自然体になり、ポーズを取っていない雰囲気が出ている。ただし本物のスマホ写真ほどの粗さは再現されていない
- ニットの質感が自然
- 窓の外を眺める自然な表情
- プロの撮影っぽさが排除されている
The photo feels imperfect and unposedという長文の自然言語記述がz-image-turboでも効いています。修正する必要がなかったため、そのまま最終版に採用しました。
最終版 作例9枚
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
![]() | ![]() | ![]() |
9枚とも安定して意図通り。 このプロンプトは「神プロンプト」3選にも選出しています。
なぜ一発で成功したのか
カフェスナップが修正不要だった理由を分析します。
- 「不完全さ」の具体的な指示 –
slightly awkward crop(微妙なトリミング)、mild smartphone compression(スマホの圧縮感)など、写真の「粗さ」を具体的な特徴で記述している - 場面の整合性が高い – カフェ+ニット+窓際+曇天という組み合わせに矛盾がなく、AIが迷わない
- 物理的に複雑な要素がない – 鏡の反射やネオンの反射のような、物理的整合性が必要な要素がない
- z-image-turboは日常スナップ的な構図を安定して生成できた
語数の推移
| Step | 語数 | 結果 |
|---|---|---|
| 0 | 8語 | カフェの女性は出るがポートレート調 |
| 1(最終版) | 46語 | 修正不要で完成 |
まとめ
カフェスナップはプロンプトの完成度が高ければ一発で決まるテーマです。鍵はThe photo feels imperfect and unposedという自然言語での空気感の指示。z-image-turboは長文の英語記述もある程度理解できることを示しています。






















