AI画像生成promptで最もよくあるやり方は、「パソコンを使うペンギン」のように一文だけ投げて、AIがランダムに出す結果を待つことです。運が良ければたまに使えますが、運が悪いと7〜8回作り直すことになります。promptを構造化すると、成功率はだいたい3割から7割まで上げられます。この記事では、こぺんぎんが実際に使っている方法を整理します。

Promptの4層構造

promptは4つのブロックに分けます。それぞれが1つの質問に答えます。

第1層:主題。何を描くのか?

最も基本の層です。主役、場面、動作を説明します。具体的であるほど良いです。「ペンギン」と「オレンジ色のマフラーを巻き、机の前に座り、目の前に開いたノートPCがある小さなペンギン」では、出てくる結果がまったく違います。

第2層:スタイル。どんなスタイルか?

水彩、3Dレンダリング、ピクセルアート、色鉛筆、日本風イラスト、ミニマル線画。スタイルは画像全体の「感じ」を決めます。色鉛筆とフラットイラストは、比較的AI感が出にくい選択です。

第3層:構図。どう配置するか?

カメラ角度(俯瞰、目線、あおり)、主題の位置(中央、三分割の左寄せ)、余白の位置(右側に文字用の余白)、比率(16:9横長、1:1正方形)。

第4層:制約。何を避けるか?

この層は見落とされがちですが、出力品質の制御にかなり効きます。「文字を入れない」「黄色いくちばしにしない」「彩度を上げすぎない」「写真写実風にしない」などです。

Promptの4層構造

Gemini/ChatGPTの実用指示例

以下はこぺんぎんがGeminiで実際に使った形式です。

例1:ブログカバー画像

主體:一隻小企鵝坐在桌前,面前擺著三台螢幕,螢幕上顯示不同的 AI 工具介面
風格:彩色鉛筆風格,柔和暖色調,略帶手繪感
構圖:16:9 橫幅,企鵝在畫面左三分之一處,右側留白可放標題文字
約束:不要照片寫實風,不要過度銳利的邊緣,不要黃色尖嘴(嘴巴是橘色圓形)

例2:SNS用画像

主體:一隻小企鵝拿著放大鏡,看著一段散發光芒的程式碼
風格:平面插畫風格,色塊分明,有輕微紋理
構圖:1:1 方形,主體置中,背景簡潔
約束:不要 3D 效果,不要漸層背景,背景用單一淺色

例3:チュートリアル手順図

主體:一個簡單的流程圖,左邊是麥克風圖示,中間是 AI 處理的齒輪圖示,右邊是字幕文字圖示,用箭頭連接
風格:線條插畫,深藍配橘色,乾淨俐落
構圖:16:9 橫幅,三個元素等距排列
約束:不要寫實圖片,不要多餘裝飾元素,如果有文字請用英文

これらの例に共通しているのは、中文で書き、構造が明確で、各部分を1行ずつに分けていることです。Geminiはこの形式の理解度が高く、Midjourneyのように英語で大量の--パラメータを付ける必要はありません。

そのままコピーできるシーン別Prompt

上の3つはややツール寄りです。ここからは実務でよく切り替えるシーンです。

記事カバー画像(ブログ、ニュースレター、プレスリリース)

シーン: ブログ記事、メールマガジン、プレスリリースに付けるメイン画像。サイズは通常16:9で、右側にタイトル用の余白が必要です。 適用ツール: Gemini/ChatGPT(第一候補。指示理解が最も良い)、Midjourney(英語に翻訳してから使用) 使い方: テーマとタイトルキーワードを入れて、Geminiのチャット欄に貼ります。

主體:桌上散落著三本筆記本、一杯冒著熱氣的咖啡、一台打開的筆電,螢幕顯示簡單的文字編輯器
風格:水彩風格,柔和的早晨光線,略帶紙張紋理
構圖:16:9 橫幅,物件集中在左半邊,右半邊留空白可以疊標題文字
色調:暖米色背景配淺褐和淡藍,整體飽和度偏低
主題關鍵字:[填主題,例如:晨間寫作習慣]
禁止:文字、logo、3D 效果、過度銳利的邊緣、高飽和度的鮮豔色塊

こぺんぎんメモ: ブログカバーはページのメインカラーと呼応させるのが大事です。実際には、既存のカバーを1枚貼り、「この画像の色調を参考にして」とGeminiに伝えると、一貫性がかなり上がります。

SNS投稿画像(IG、Threads、X)

シーン: 短い投稿に添える正方形画像または4:5縦長画像。目を引き、スクロール中に視線を止める必要があります。 適用ツール: Gemini、ChatGPT、Midjourney 使い方: platformに合わせて比率を選びます。XとThreadsは1:1、IGとFacebookは4:5。

主體:一個簡單的視覺隱喻,表達 [貼文主題,例如:資訊焦慮]
風格:平面插畫,色塊分明,有一點點手繪不規則感
構圖:1:1 方形,主角置中偏上,下方留三分之一空間給疊字
色調:低飽和的莫蘭迪色系,主色深藍灰配一點暖橘
氛圍:安靜、帶一點幽默感,像朋友在說一件小事
禁止:文字、臉部特寫、高飽和霓虹、漸層背景、3D 渲染

こぺんぎんメモ: SNS画像でいちばん怖いのは、他人の画像と「似すぎる」ことです。固定の配色palette、たとえば深いブルーグレーに温かいオレンジを少し足す組み合わせを毎回使うと、見続けたフォロワーがあなたの画像だと認識しやすくなります。

商品宣伝画像(EC、クラウドファンディング)

シーン: EC商品ページやクラウドファンディングページの使用シーン画像。見た人に買いたいと思わせつつ、ストック素材っぽく見せない必要があります。 適用ツール: Gemini/ChatGPT(第一候補。商品写真をアップロードして参考にできる)、Midjourney(雰囲気画像向き) 使い方: 必ず実物の商品写真を1枚アップロードしてから、このpromptを使います。

主體:參考上傳的產品,把它放進一個日常使用的場景:[例如 週末下午的書桌上,旁邊放著翻開的書和一杯茶]
風格:生活攝影感,自然光,淺景深
構圖:4:5 直幅,產品在畫面中央偏下三分之一的位置,上方背景稍微虛化
光線:側光,從畫面右上方進來,在產品上形成柔和的陰影
氛圍:慢、安靜、有生活感,像隨手拍下的一瞬間
禁止:塑膠感、過度光滑、AI 味人物、握手和西裝商務場景、偽造產品細節
重要:產品的外觀、顏色、logo 必須跟上傳的圖完全一致,不能改動

こぺんぎんメモ: 最後の「商品の外観を変えない」は重要です。Geminiは善意で商品を「きれいに」しようとして、実物と色味が1段階違うものを描くことがあります。これはクライアントが怒るポイントです。

人物イラスト(AI顔を避けるコツ)

シーン: ブログ挿絵に人物が必要な場合。AIが描く顔は、目線や歯が不自然になりがちです。 適用ツール: Gemini、ChatGPT、Midjourney 使い方: 正面の顔アップを避け、後ろ姿や横顔にするのが鍵です。

主體:一個人坐在窗邊的書桌前,從背後或側面看過去,手邊有一本書和一支筆
風格:彩色鉛筆手繪風,紙張紋理明顯,線條略有抖動感
構圖:16:9 橫幅,人物在畫面左側三分之一處,不顯示正面五官
角度:從後斜上方 45 度俯視,看到後腦勺和肩膀,臉部朝向窗外
色調:午後陽光的暖橘配淡綠,低飽和
禁止:正面人臉、牙齒特寫、對視鏡頭的眼神、塑膠感皮膚、完美五官

こぺんぎんメモ: promptに「正面」「アップ」のような言葉が入ると、AIは変な顔を描きやすくなります。「後ろ姿」「45度の横顔」「肩まで」などの表現に変えると、ほぼ失敗しません。本当に顔が必要な場合は、実写素材を使うか自分で撮影するのがおすすめです。

情報図(フローチャート、比較図)

シーン: 記事内でフローや比較を説明する簡単な図が必要な場合。正式なinfographicではありません。 適用ツール: Gemini/ChatGPT(簡単な線画図なら描ける)、手動でFigma(最も安定。AI画像の文字はよく崩れる) 使い方: 図に文字が入る場合は、AIには純粋な図形だけ描かせ、文字はFigmaで自分で載せるのがおすすめです。

主體:一張簡單的三步驟流程圖,三個圓角方塊由左到右排列,中間用箭頭連接
元素:
  第一格:一張紙的圖示,代表輸入資料
  第二格:齒輪和 AI 晶片的組合,代表處理
  第三格:一個對話框圖示,代表輸出
風格:極簡線條插畫,粗細一致的描邊,沒有填色或只填淺色
構圖:16:9 橫幅,三個方塊等距排列,背景留白
色調:背景純白 #FFFFFF,線條深灰 #2D3748,重點色用一點淺藍 #90CDF4
禁止:任何文字(中英都不要)、3D 立體、漸層、陰影、多餘裝飾

こぺんぎんメモ: 最後の「文字は一切入れない」が鍵です。AIが文字を描くと、ほぼ必ずぼやけるか誤字になります。最初から空けておき、Figmaで綺麗な中文を重ねるほうが、一回分の再生成を省けます。

参考画像:一貫性を上げる鍵

文字だけのpromptには天井があります。AIは「頭の中の絵」を推測することしかできません。参考画像はこの差を大きく縮めます。

実際には、画像をGeminiに直接アップロードし、「この画像のスタイルとキャラクター造形を参考にして、以下の内容を生成して」と伝えます。

この方法は、キャラクターの一貫性を解決するうえで特に有効です。たとえばブランドペンギンにはオレンジ色の丸いくちばしがあります。しかしAIの学習データ内の実物ペンギンは、ほとんどが黄色く尖ったくちばしです。文字だけで「オレンジ色の丸いくちばし」と強調しても、モデルは黄色い尖ったくちばしへ引き戻されがちです。参考画像を添えると、誤り率は明らかに下がります。

Prompt最適化の前後比較

AI感を減らす方法

AI生成画像には、一目でわかる「AI感」があります。高彩度、過度になめらかな質感、不自然にシャープな輪郭、完璧すぎる光影、グラデーション。これを減らす方法はいくつかあります。

質感のあるスタイルを指定する。 色鉛筆、水彩、パステル、クレヨン。こうしたスタイルには不規則な筆跡や質感が最初からあり、3Dレンダリングより自然にAI感が下がります。

彩度を下げる。 promptに「柔らかい色調」「低彩度」「muted colors」を入れます。AIのデフォルト色は高彩度に寄りがちなので、下げるだけで全体がかなり見やすくなります。

少し不完全にする。 「少し手描き感」「輪郭をシャープにしすぎない」「自然な光影、過度なHDRにしない」。こうした小さな指示で、完成品の「きれいすぎる」感じを減らせます。

AIが得意すぎるスタイルを避ける。 超写実人物、SFシーン、3D商品レンダリング。これらはAIの得意領域で、生成するとすぐAI製だとわかりがちです。色鉛筆や手描きのような「不完全」なスタイルのほうが、AI感はむしろ低くなります。

こぺんぎんブランドの画像はほぼ色鉛筆風です。理由は単純で、一目でAI生成だと見抜かれにくいからです。

ハマりどころ:ペンギンのくちばしの話

このハマりどころは単独で話す価値があります。AI画像生成の根本的な制限を示しているからです。

ブランドペンギンにはオレンジ色の丸いくちばしがあります。とても単純な特徴ですが、AIはこれをよく間違えます。

最初の直感は、promptが明確でないのだろうというものでした。そこでthe penguin has an brown rounded beak, NOT yellow, NOT pointyを追加しました。改善はしましたが、まだ時々間違えます。

実際の原因は、モデルの学習データに何百万枚ものペンギン写真があり、ほとんどのペンギンのくちばしが黄色く尖っていることです。promptでどれだけ強調しても、モデルの「本能」は黄色い尖ったくちばしへ引き戻します。

最終解決策は、参考画像と文字制約を同時に使うことでした。くちばしが正しい参考画像を1枚添え、prompt内にも「orange rounded beak」と明記します。両方を使ってから、ようやく成功率が安定しました。

教訓:AIの出力は学習データと強く結びついています。欲しいものが学習データ内の一般的なパターンと違う場合、文字説明だけでは足りません。必ず視覚的な参考を渡します。

ツール別Promptの書き方比較

比較項目Gemini(Nano Banana Pro / Nano Banana 2)Midjourney最新版ChatGPT内蔵(GPT Image 2.0)
言語中文・英語どちらも可英語のみ中文可(会話で自動変換)
形式自然言語。特殊構文不要--ar--styleなどのパラメータが必要自然言語、会話式
Negative constraints「不要XX」と直接書く--noパラメータ「不要XX」と直接書く
参考画像画像アップロード + 文字説明画像URL + /describeChatGPT会話で画像添付可
スタイル制御文字でスタイルを説明--style raw + スタイルキーワード文字で説明。制御力はやや弱い
学習難度低い高い低い

モデルバージョンごとの細かな違いは、Gemini無料版 vs Pro版の違いも参考にしてください。

画像生成の全体フロー

画像のアイデアから完成までの流れです。

  1. まず画像の用途と配置場所を決める
  2. 4層構造でpromptを書く(主題、スタイル、構図、制約)
  3. ブランドキャラクターが関係するなら参考画像を添える
  4. 3〜4枚生成し、最も近いものを選ぶ
  5. どれも違う場合、prompt内で最も弱い層を調整してもう一度生成
  6. 選んだ後、Figmaで最後の微調整をする(文字追加、配色調整、トリミング)

全体として、1枚あたり約5〜15分です。初めて描く新しいシーンは、方向を掴むまで数回試す必要があるので少し長くなります。

FAQ

AI画像生成promptはどう書けば変な画像になりにくいですか?

鍵は構造化です。promptを主題、スタイル、構図、制約の4ブロックに分けます。各ブロックが具体的であるほど、AIが期待から外れる確率は下がります。特に制約層に注意し、AIに何を不要とするかを明確に伝えるほうが、何が欲しいかだけ伝えるより効果的です。

AIが描いた画像が嘘っぽく見えるのはなぜですか?

多くはスタイルの問題です。AIのデフォルトの描画は、高彩度、なめらかな質感、過度にシャープな輪郭に寄りがちです。これがいわゆるAI感です。手描き、水彩、色鉛筆など質感のあるスタイルを指定すると、この感じを大きく減らせます。

AI画像生成promptは中文で書けますか?

ツール次第です。GeminiとChatGPTは中文promptをよく理解するので、そのまま中文で書けます。Midjourneyは英語のみなので、自分で翻訳するかAIに英語promptへ変換してもらいます。

Promptで最も見落とされやすい部分は何ですか?

制約層です。多くの人はAIに「欲しいもの」だけを伝え、「不要なもの」を伝えません。文字を入れない、彩度を上げすぎない、黄色いくちばしにしない、などのnegative constraintsを加えると、再生成回数を大きく減らせます。

AIに毎回同じスタイルの画像を出させるには?

参考画像を付けるのが最も効果的です。すでにOKと確認した画像をアップロードし、その画像のスタイルを参考にしてもらいます。同じsession内で連続生成すると一定の一貫性は保てますが、翌日開き直すとずれることがあります。


こぺんぎんの体験談

こぺんぎんが最初にAI画像生成に触れたのは、Midjourney初期のDiscordインターフェースの時期でした。その後、主力はGeminiとChatGPTに移りました。理由は単純で、中文指示への従順さが高く、参考画像を直接アップロードでき、ブランドキャラクターの一貫性が純粋な文字説明よりかなり安定するからです。CanvaのAI画像生成も一時期試しましたが、色のグラデーション処理や全体の質感が合わず、その後は戻っていません。

「色鉛筆 + グラデーション禁止」は、こぺんぎんブランド画像の固定の土台です。AIのデフォルトにある高彩度、グラデーション、3D質感は一目でAIとわかりやすいためです。色鉛筆風は手描きの質感と不規則さを持っており、AI感に落ちる確率が最も低いです。

promptライブラリの蓄積も、ここ数年で少しずつできた習慣です。良い指示構造を見つけるたびに保存し、次に似たテーマの画像が必要になったら、数語だけ変えて使います。毎回ゼロから始めるよりずっと速いです。pen-pingsシリーズは、こうしたよく使うpromptを整理して共有する形式です。

Promptに終わりはありません。ツールのバージョンが変わるたびに、以前うまくいった書き方が効かなくなることがあり、モデルが違えば結果も変わります。長期的に見ると、使える画像を安定して出す鍵は、自分の指示ライブラリを作り、ツールバージョンに合わせて少しずつ反復することです。特定の「神prompt」にしがみつくことではありません。

関連記事


— Penchan