AI画像生成において、解像度とアスペクト比の設定は画像品質に直結する重要なパラメータです。適切に設定しないと、人体が歪んだり構図が崩れたりする原因になります。本記事では、モデルごとの推奨サイズから用途別の最適なアスペクト比、高解像度化のテクニックまでを体系的に解説します。
なぜ解像度とアスペクト比が重要か
モデルの学習解像度と生成品質の関係
画像生成AIモデルは、特定の解像度で学習されています。たとえばStable Diffusion 1.5は512×512ピクセル、SDXLは1024×1024ピクセルの画像で訓練されています。この学習解像度から大きく外れたサイズで生成すると、品質が低下することがあります。
具体的には、学習解像度よりも極端に大きいサイズを指定すると、同じ被写体が画面内に複数出現したり、人体のプロポーションが崩れたりする現象が起きます。
アスペクト比による構図への影響
アスペクト比(縦横比)は、生成される画像の構図を大きく左右します。正方形(1:1)はバストアップ構図になりやすいとされていますが、プロンプト次第で全身やロングショットも生成可能です。横長(16:9)では背景を含む広い構図が生成されやすくなります。用途に合わせたアスペクト比の選択が、意図した構図を得る近道です。
モデル別の推奨解像度
各モデルには学習時のベース解像度があり、それに基づいた推奨サイズが存在します。
SD 1.5
| アスペクト比 | 解像度 | 用途 |
|---|---|---|
| 1:1 | 512×512 | 基本サイズ |
| 2:3 | 512×768 | ポートレート向け |
| 3:2 | 768×512 | 風景・横構図向け |
SD 1.5の学習解像度は512×512です。768ピクセルを超えるサイズでは品質低下が顕著になるため、大きな画像が必要な場合はアップスケーラーとの併用が推奨されます。
SDXL
| アスペクト比 | 解像度 | 用途 |
|---|---|---|
| 1:1 | 1024×1024 | 基本サイズ |
| 2:3 | 832×1216 | ポートレート向け |
| 3:2 | 1216×832 | 風景・横構図向け |
| 9:16 | 768×1344 | スマホ壁紙向け |
| 16:9 | 1344×768 | ワイド構図向け |
SDXLは1024×1024を基準に学習されており、総ピクセル数が約100万ピクセル(1メガピクセル)前後になる解像度の組み合わせが安定します。
※ 各解像度は総ピクセル数を約1MPに保つための近似値であり、厳密なアスペクト比とは若干異なります
SD3 / SD3.5
| アスペクト比 | 解像度 | 用途 |
|---|---|---|
| 1:1 | 1024×1024 | 基本サイズ |
SD3系は1024×1024を基準に設計されています。アスペクト比を変更する場合もSDXLと同様の解像度を目安にできます。
Flux
| アスペクト比 | 解像度 | 用途 |
|---|---|---|
| 1:1 | 1024×1024 | 基本サイズ |
| 任意 | 総ピクセル数約1MP | 自由な比率 |
Fluxはアスペクト比の自由度が高いモデルです。総ピクセル数を約100万ピクセル前後に保てば、幅広いアスペクト比で安定した品質が得られます。
用途別おすすめアスペクト比
生成した画像をどこで使うかによって、最適なアスペクト比は変わります。
| 用途 | アスペクト比 | SDXL推奨解像度 | 備考 |
|---|---|---|---|
| SNS投稿(Instagram等) | 1:1 | 1024×1024 | フィード投稿に最適 |
| SNS投稿(Instagram等) | 4:5 | 896×1120 | 縦長投稿で画面占有率が高い |
| ブログサムネイル | 16:9 | 1344×768 | OGP画像にも適する |
| ポートレート | 2:3 | 832×1216 | 全身〜上半身が自然に収まる |
| PC壁紙 | 16:9 | 1344×768 | アップスケール前提 |
| ウルトラワイド壁紙 | 21:9 | 1536×660 | アップスケール必須 |
| スマホ壁紙 | 9:16 | 768×1344 | アップスケール前提 |
壁紙用途では、生成時は上記の解像度で出力し、後述のアップスケーラーで最終解像度まで拡大するのが一般的です。
学習解像度と異なるサイズで生成するとどうなるか
よくある問題
学習解像度から大きく外れたサイズを指定すると、次のような問題が起きやすくなります。
- 人体の歪み: 人体のプロポーションが崩れる、同じ被写体が複数生成される
- 構図の崩壊: 意図しないズームや、被写体の重複
- 細部の破綻: 指の本数異常や顔の崩れが増加
特にSD 1.5で1024×1024以上を直接指定すると、こうした問題が顕著です。
対処法: Hires.fixの活用
Hires.fix(High Resolution Fix)は、まず学習解像度で画像を生成し、それをアップスケールしてから再度ノイズ除去を行う機能です。これにより、構図の破綻を抑えつつ高解像度の画像を得られます。
- 学習解像度(例: 512×512)で構図を確定
- 指定倍率(例: 2倍)にアップスケール
- 設定したデノイズ強度で再度生成
デノイズ強度は0.4〜0.6程度が一般的です。低すぎるとぼやけが残り、高すぎると構図が変わります。
高解像度化のテクニック
生成した画像をさらに高解像度にする主要な手法を紹介します。
Hires.fix
前述のとおり、生成時に組み込みで使える高解像度化機能です。AUTOMATIC1111やForgeなどのWebUIに標準搭載されています。追加のインストールが不要で手軽に使える反面、VRAM消費が大きくなります。
Ultimate SD Upscale
img2imgとタイル分割を組み合わせた拡張機能です。画像をタイル(小領域)に分割して順番に処理するため、VRAM使用量を抑えながら大きな画像を生成できます。タイル境界のつなぎ目が目立つ場合は、オーバーラップの設定を調整します。
Tiled Diffusion(MultiDiffusion)
画像をタイルに分割し、各タイルを並行してデノイズする手法です。Ultimate SD Upscaleと似た目的ですが、拡散過程自体をタイル単位で行う点がUltimate SD Upscaleとは異なります。Tiled VAEと併用することでVRAM消費をさらに抑えられます。
外部アップスケーラー
AIベースの超解像モデルを使って、生成後の画像を拡大する方法です。
| ツール | 特徴 |
|---|---|
| Real-ESRGAN | 汎用性が高く、写実・イラスト両対応 |
| 4x-UltraSharp | ディテールの強調が強い |
| SwinIR | Swin Transformerベースのアップスケーラー |
| Topaz Gigapixel AI | 商用ソフト、GUIで手軽に使える |
外部アップスケーラーは生成プロセスと独立しているため、どのモデルで生成した画像にも適用できる汎用性が利点です。
まとめ
解像度とアスペクト比の設定は、AI画像生成の品質を左右する基本要素です。
- モデルの学習解像度に合わせるのが品質安定の基本
- 用途に合ったアスペクト比を選ぶことで意図した構図を得やすくなる
- 高解像度が必要な場合はアップスケーラーを活用し、生成時は学習解像度付近で出力する
まずは各モデルの推奨解像度で生成してみて、用途に応じてアスペクト比を調整していくのがおすすめです。


