GPT-Image-2 を使ったキャラクター設定資料の一括生成に、連休の何日かを費やして格闘しました。試行錯誤の末、三面図・表情グリッド・ファッションボード・日常ストーリーボードの4枚を1プロンプトで生成できる方法を確立しました。この記事では、その過程で起きた5つの失敗と解決策、そして完成プロンプトを全文公開します。
なお、このページのアイキャッチ画像は、本記事で紹介するプロンプトで生成したキャラクターのImage 3(ヘアスタイル&コーディネートボード)をそのまま使用しています。記事を読み終えたあと、もう一度アイキャッチを見ていただくと、プロンプトの完成度がより実感できると思います。
【前提】GPT-Image-2で「画像生成のルール」が変わった
タグ羅列の時代は終わった
MidjourneyやStable Diffusionを使ってきた方なら、masterpiece, 4k, best quality, beautiful girl, long hair のようなカンマ区切りのタグ羅列プロンプトに馴染みがあるはずです。しかしGPT-Image-2では、このスタイルがほぼ通用しません。
GPT-Image-2はGPT-4oアーキテクチャにネイティブ統合された大規模視覚言語モデル(L-VLM)です。そのため、キーワードの羅列はデコード時のトークン競合を引き起こし、画質を劣化させる原因になります。出典: Qiita
GPT-Image-2が求める「自然言語」プロンプトとは
正しいアプローチは、AIが情景をイメージできる自然な英文で描写することです。たとえば「beautiful girl, school uniform, long hair」ではなく、「A friendly young woman in a clean school uniform, with long flowing hair, standing naturally in soft studio lighting.」のように書きます。
この転換が、すべての改善の出発点になりました。出典: チャエンのAI研究所
連休試行錯誤録 ― 5つの失敗と解決策
失敗①:masterpiece, 4k をそのまま使ったら画像が崩壊した
最初の失敗は典型的なものでした。Midjourney時代のプロンプトをそのままコピーして投げたところ、斜めのグリッドノイズが全面に走り、細部のディテールが完全に崩れた画像が生成されました(筆者が観測した現象。コミュニティでも同様の報告が複数あります)。
解決策はシンプルで、プロンプトをタグ形式から情景描写文に書き換えるだけです。変更後は同じキャラ設定でも、鮮明でディテールの豊かな画像が生成されるようになりました。
失敗②:実名を入れたら即 moderation_blocked エラー
「〇〇さんのような顔立ちで」という表現を試したところ、moderation_blocked エラーが返ってきました。これはOpenAI APIのエラーリファレンスに定義された公式エラーで、生成プロセス中のモデレーション・スキャンで安全基準に抵触したことを示します。
注意点として、このエラーは生成後に検知されるため、場合によってはトークン料金が課金されることがあります。生成前に止まる sentinel_block とは異なります。
そこで取り組んだのが、「ポリシーに沿って自分の理想の顔を物理的特徴で言語化する技術」です。実在人物を再現しようとするのではなく、自分が望むキャラクターの顔を特徴に分解して描写します。
- 水平な目尻(horizontal outer eye corners)
- 自然な二重(natural medium double eyelids)
- 笑うと見える涙袋(smile-visible lower tear bags)
- 透き通るようなミルクティー肌(translucent milk tea skin tone)
- 健康的な丸みのある頬(healthy round cheeks)
このように物理的・光学的な特徴として分解することで、AIが「その顔」を独自に構築してくれます。そして意図した以上に魅力的な仕上がりになることも少なくありません。
失敗③:直接的な表現がことごとくブロックされた
スタイルの表現でも壁にぶつかりました。直接的な表現は OpenAI のコンテンツポリシーに抵触し、生成できません。これもポリシー上の当然の制限です。
解決策は、ハイファッション・エディトリアル系の語彙を使った肯定的な表現です。「きゅっと引き締まったウエスト(tightly cinched waist)」「魅惑的なS字シルエット(captivating S-curve silhouette)」「スレンダーで非常にバランスの取れたプロポーション(breathtakingly slender, beautifully proportioned figure)」のような表現に置き換えると、ポリシーに沿ったまま意図した体型を表現できます。
失敗④:「ランウェイモデル」と書いたら全員が168cmになった
スタイルを良く見せようと runway model body type と指定したところ、筆者が観測した現象として、生成される全キャラクターの身長が高め(168cm前後)に固定されてしまいました。GPT-5.5はプロンプトの単語を文字通りに解釈する傾向があり、「ランウェイモデル」=「高身長」という連想が強く働いた結果です。
解決策は「単語を削り、明示的な自由度を与える」ことです。
Height / 身長: [Pick a random number between 150 and 172]cm
このように範囲を指定することで、AIが適切な値を自律的に選択し、自然なバリエーションが生まれます。
失敗⑤:1枚に詰め込んだら顔が変わった → バッチ生成で解決
最大の難関は「一貫性の維持」でした。三面図・表情グリッド・日常シーンをすべて1枚のキャンバスに分割して描かせようとすると、パネルをまたぐたびにキャラクターの顔立ちが微妙に変化してしまいます。これはAIの空間的推論が複数シーンの配置に分散し、同一キャラクターを維持しきれなくなる現象です。

解決策は「バッチ生成」への切り替えです。GPT-Image-2のAPIでは n パラメータを使って、1リクエストで最大4枚の独立した画像を生成できます。出典: AICU
また、プロンプトの冒頭に「絶対にコラージュしない。4枚の独立したファイルとして出力すること(Do not combine these into a single canvas or collage.)」という明示的な禁止命令を入れることが重要です。この一文があるとないとでは、顔の一貫性が大きく変わります。

ブレイクスルー ― 詳細指示が品質を「下げる」逆説
Outcome-First Prompting とは何か
試行の途中で、直感に反する発見がありました。Image 3(ファッション&ヘアスタイルボード)で「6種類のスタイル / Style 1〜6の見出し / 各スタイルに補足カットと英日説明 / 雑誌レイアウト…」と細かく詰め込んだプロンプトを試したところ、フォーマットは整うものの、出力が機械的で魅力に欠ける結果になりました。
一方、「服装と髪型の変化を深掘りして」と一言だけ投げたシンプル版のほうが、キャラクターの雰囲気に合った、はるかに魅力的なスタイリングが出てきたのです。
これはOpenAI公式ガイドに記載されている「Outcome-First Prompting」の概念に一致します。過剰なstep-by-step指示はモデルの探索空間(search space)を狭め、機械的な出力を生む原因になります。GPT-5.5のような高性能モデルに対しては、「どう作るか(プロセス)」ではなく「何が欲しいか(アウトカム)」だけを伝え、残りはモデルの推論に委ねるほうが品質は上がります。
詳細版 vs シンプル版の比較
ファッション&ヘアスタイルボードを例に比較します。
| パターン | プロンプトの特徴 | 結果の傾向 |
|---|---|---|
| 詳細版(手順指示型) | 「6種類 / Style 1〜6見出し / 補足カット / 英日説明」と全制約を列挙 | フォーマットは安定するが出力が機械的。キャラに合わない汎用的なスタイリングになりやすい |
| シンプル版(Outcome-First型) | 「このキャラに最もマッチするファッション&ヘアスタイルボードを生成して。AIに完全な裁量を与える」と一文 | キャラクターのオーラや顔立ちに合ったスタイリングが自然に出てくる。目を引く仕上がりになりやすい |
ただし、「英日併記のラベルを入れる」のような絶対に守らせたい最低限の制約は残します。「すべてを指示する」のではなく「絶対必要なものだけを制約し、残りはAIに委ねる」が現代の最適解です。
GPT-Image-2時代のプロンプト6原則
試行錯誤から得た学びを6つの原則に整理します。出典: Felo Search Blog
① 自然言語で情景を描写する
タグ羅列は使わず、AIが情景をイメージできる流れるような英文で描写します。「誰が / どこで / どんな状態で」を自然な文章で伝えましょう。
② Outcome-First — 「何が欲しいか」だけを伝える
プロセスの細かい手順を指示するほど品質は下がります。最終的に欲しい「画像の姿」だけを明確に伝え、AIの推論に委ねましょう。
③ 肯定表現でポリシーに沿って理想を言語化する
直接的な禁止ワードを避け、ハイファッション的・エディトリアル的な語彙に置き換えます。ポリシーに準拠しながら理想のキャラクター像を表現するのが、この技術の本質です。
④ 明示的な自由度でAIの文字通り解釈を回避する
特定の単語がAIに固定化された解釈を生む場合、範囲指定や選択肢を明示して自由度を与えます。
Age / 年齢: [Pick a random number between 18 and 28]
Height / 身長: [Pick a random number between 150 and 172]cm
⑤ バッチ分割で一貫性を保つ(コラージュ禁止命令)
複数シーンを同一キャラで生成する場合は、1枚のキャンバスに詰め込まず、独立した4枚としてバッチ生成します。プロンプト冒頭に「Do not combine into a single canvas or collage.」と明記することが重要です。
⑥ 文字描写(Text Rendering)で設定資料の完成度を上げる
GPT-Image-2はテキストの描画精度が高く、画像内に英語と日本語を正確に埋め込めます。「Front / 正面」「Height / 身長: 162cm」のような英日併記のラベルを指定することで、まるで公式設定資料集のような仕上がりになります。
【全文公開】究極の設定資料一括生成プロンプト
プロンプトの構成
以下のプロンプトは4つのブロックで構成されています。
- Task Instruction: バッチ生成・コラージュ禁止・一貫性維持の大前提を宣言
- Image 1: 全身三面図(正面・横・背面)+バストアップ。スペック数値を英日で描き込む
- Image 2: 4×4の16種類の表情グリッド。各パネルに英日ラベル付き
- Image 3: ファッション&ヘアスタイルボード6種。AI裁量でキャラに合ったスタイリングを提案させる
- Image 4: 日常ストーリーボード4コマ(朝カフェ・読書・街歩き・リラックス)
- Subject details: 4枚共通のキャラクター顔・体型・肌感の詳細
- Style: 全体フォーマット(フォトリアル・1:1正方形)
完全版プロンプト(コピペ即実行)
以下をそのままGPT-5.5のシステムプロンプトまたはChatGPTのメッセージとして貼り付けてください(2026-05 動作確認済み)。
[Task Instruction / 実行指示]
Generate a batch of exactly 4 separate and independent image files for a friendly, lively, and healthy young Japanese woman. You must output 4 individual images. Do not combine these into a single canvas or collage. The character's facial features and identity must remain strictly consistent across all 4 separate images.
(親しみやすく、活発で健康的な若い日本人女性の画像を、厳密に4枚の独立した画像ファイルとしてバッチ生成してください。必ず4つの個別の画像を出力してください。これらを1枚のキャンバスやコラージュに結合しないでください。4枚の別々の画像すべてにおいて、キャラクターの顔の特徴とアイデンティティは厳密に一貫していなければなりません。)
[Image 1: Base Turnaround & Proportions / 画像1: ベース三面図と体型設定]
For the first image, generate a photorealistic character turnaround reference sheet on a clean white studio background. The layout neatly arranges the exact same character in four distinct views: a full-body front view, a full-body side profile, a full-body back view, and a close-up front bust portrait. She features a breathtakingly slender, beautifully proportioned figure with graceful legs, a tightly cinched waist, and pronounced, elegant feminine curves that create a captivating S-curve silhouette. Her posture is highly confident and fashion-forward. She is wearing a form-fitting, soft peach-beige ribbed knit top and tailored slim jeans that tastefully accentuate her stunning, perfect proportions while remaining entirely modest and sophisticated. Include clean typography labels reading "Front / 正面", "Side / 横", "Back / 背面", and "Bust-Up / バストアップ" placed under each figure. Also include small bilingual specification text callouts picking random but realistic values for this character, such as "Age / 年齢: [Pick a random number between 18 and 28]" and "Height / 身長: [Pick a random number between 150 and 172]cm", along with "Body Type / 体系: Perfect S-Curve Silhouette".
(1枚目の画像として、クリーンな白いスタジオ背景の写真のようにリアルなキャラクター三面図設定シートを生成してください。全身の正面、横顔、背面、およびバストアップの4つのアングルで全く同じキャラクターをきれいに配置します。彼女は、優雅な脚、きゅっと引き締まったウエスト、そして魅惑的なS字シルエットを生み出す際立ってエレガントな女性らしい曲線美を持つ、息を呑むほどスレンダーで非常にバランスの取れたプロポーションです。姿勢は非常に自信に満ち、ファッション性に溢れています。上品で洗練された印象を完全に保ちながらも、その驚くほど完璧なプロポーションを上品に際立たせる、体にぴったりとフィットした柔らかいピーチベージュのリブニットとスリムジーンズを着用。各図の下に「Front / 正面」「Side / 横」「Back / 背面」「Bust-Up / バストアップ」というきれいな文字ラベルを配置し、「Age / 年齢: [18〜28の間でランダムな数値を選択]」「Height / 身長: [150〜172の間でランダムな数値を選択]cm」「Body Type / 体系: Perfect S-Curve Silhouette」など、範囲を明示してランダムに生成したバイリンガル仕様テキストを含めてください。)
[Image 2: 16-Panel Expression Grid / 画像2: 16分割の表情グリッド]
For the second image, generate a detailed character expression reference sheet on a clean white background. Neatly arrange close-up portraits of her face in a 4x4 grid of 16 panels. Each panel must showcase a distinct, rich expression. Include a clean bilingual text label at the bottom of each panel, such as "Smile / 笑顔", "Surprise / 驚き", "Thoughtful / 思案", "Angry / 怒り", "Sad / 悲しみ", "Wink / ウィンク", and other nuanced emotions.
(2枚目の画像として、クリーンな白背景の詳細なキャラクター表情設定シートを生成してください。4×4の16パネルのグリッドに彼女の顔のアップをきれいに配置します。各パネルには異なる豊かな感情表現を描き、各パネルの下部には「Smile / 笑顔」「Surprise / 驚き」「Thoughtful / 思案」などのクリーンな英日併記のテキストラベルを含めてください。)
[Image 3: 6 Hairstyle & Outfit Variations / 画像3: 6種類のヘアスタイル&コーデ提案]
For the third image, create a clean fashion editorial style board on a white background. Present 6 coordinated hairstyle and outfit variations that are not fixed in advance; instead, choose the most suitable combinations based on the character's image, aura, facial features, age impression, and overall vibe. Arrange the 6 variations neatly, and include a small hairstyle detail inset for each style. Add bilingual labels and descriptions in both English and Japanese directly in the image. Use headings such as "Style 1 / スタイル1" through "Style 6 / スタイル6". For each style, include a hairstyle name in English and Japanese, a short styling description in both languages, and a brief note about the outfit mood in both languages. Keep the layout photorealistic, highly detailed, elegant, clean, and magazine-editorial.
(3枚目の画像として、白背景のクリーンなファッションエディトリアル風スタイルボードを作成してください。髪型と服装の組み合わせは固定せず、そのキャラクターの雰囲気、顔立ち、年齢感、オーラ、全体イメージに合わせて最適な6種類のコーディネートを提案してください。6つのバリエーションを見やすく配置し、各スタイルに小さなヘアディテールの補足カットも入れてください。画像内の見出し・ラベル・説明文は必ず英語と日本語の併記にしてください。見出しは「Style 1 / スタイル1」から「Style 6 / スタイル6」まで使用し、各スタイルごとにヘアスタイル名、短い説明、服装の雰囲気説明を英日併記で入れてください。全体はフォトリアル、高精細、上品で清潔感のある雑誌レイアウトにしてください。)
[Image 4: Daily Life Storyboard / 画像4: 日常ストーリーボード]
For the fourth image, generate a 4-panel storyboard on a white background showing the character in different natural, everyday slice-of-life scenes. Include a clean bilingual text caption for each panel, such as "Morning Cafe / 朝のカフェ", "Reading / 読書", "City Walk / 街歩き", and "Relaxing / リラックス".
(4枚目の画像として、白背景の4コマストーリーボードを生成してください。自然で日常的な生活のワンシーンを異なるシチュエーションで描いてください。各コマには「Morning Cafe / 朝のカフェ」「Reading / 読書」などのクリーンな英日併記のテキストキャプションを含めてください。)
[Subject details for all images / 全画像共通のキャラクター詳細]
She exudes an approachable, radiant aura with a radiant, innocent, and unposed natural smile that captivates viewers, her eyes crinkling at the corners with genuine happiness. Her facial features include healthy round cheeks, a softly defined jaw contour, horizontal outer eye corners, natural medium double eyelids, and smile-visible lower tear bags. She features ultimate photorealism, showing a translucent milk tea skin tone with flawless yet natural skin texture.
(彼女の顔の特徴:親しみやすく輝くようなオーラ(愛嬌)を放ち、心からの幸せで目尻が下がる、見る者を惹きつける無邪気で自然体な笑顔が特徴です。健康的な丸みのある頬、自然な顎の輪郭、水平な目尻、自然な二重、笑うと見える涙袋を持っています。圧倒的な透明感のあるミルクティー肌と、欠点のない自然な肌の質感を備えています。)
[Style across all images / 全体のスタイルとフォーマット]
Style across all images: Photorealistic, high-end commercial studio photography, highly detailed, clean and professional magazine editorial layout. 1:1 aspect ratio, square format.
(すべての画像共通のスタイル:写真のようにリアルで、高級な商業スタジオ写真、非常に詳細で、クリーンでプロフェッショナルな雑誌編集レイアウト。アスペクト比は1:1で、正方形フォーマットです。)
運用Tips ― APIでの活用とプロンプト管理
n パラメータで4枚バッチ生成(API編)
GPT-Image-2のAPIでは n パラメータで1リクエストあたり最大4枚の独立した画像を生成できます(Tier 5以上のユーザーはそれ以上も可能)。ChatGPT UIでは「バリエーションを4枚見せて」と自然言語で指示することで、内部的に n=4 が動きます。
また、GPT-Image-2から課金体系が「出力トークンベース(解像度×枚数の合計)」に変更されています。高解像度で4枚生成する場合は料金に注意してください。出典: AICU
英日併記プロンプトの管理法
上記のプロンプトは英語と日本語を併記しています。これは人間が内容を確認しやすくするための設計です。バックエンドAPIから呼び出す際は、英語部分のみを抽出してリクエストを送ることで、トークン使用量を最小化できます。
なお、本記事のモデル呼称「GPT-5.5」「GPT-Image-2」は2026年5月時点のものです。OpenAIのモデル名は変更されることがあるため、最新の公式ドキュメントを確認してください。
あわせて読みたいおすすめ書籍
まとめ ― GPT-Image-2でキャラクターを「永続化」する
GPT-Image-2でキャラクター設定資料を一括生成するためのポイントをまとめます。
- タグ羅列は使わない。自然言語で情景を描写する
- 実在人物の再現ではなく、自分の理想を物理的特徴で言語化する
- 詳細な手順指示ほど品質が下がる。Outcome-Firstで最終形だけを伝える
- バッチ生成(4枚独立出力)+コラージュ禁止命令でキャラの一貫性を守る
- 英日併記のText Renderingで設定資料としての完成度を高める
AIの画像生成は「いかに細かく指示するか」から「いかに的確なゴールを伝え、AIの推論を信頼するか」へシフトしています。連休中の試行錯誤が、その変化を体感する良い機会になりました。ぜひ完全版プロンプトをそのままお試しください。
生成AIを活用した画像制作のノウハウについては、生成AIカテゴリに他の記事もまとめています。また、AIツールの技術的な活用法はIT技術カテゴリでも随時更新しています。

コメント