AI 绘图 Prompt 技巧 2026｜中文提示词让 Gemini、Midjourney 精准生图

Q: AI 绘图 prompt 怎么写才不会出奇怪的图？

关键是结构化。把 prompt 拆成四个区块：主体（画什么）、风格（什么风格）、构图（怎么摆）、约束（不要什么）。每个区块写得越具体，AI 偏离预期的几率越低。

Q: AI 绘图 prompt 可以用中文写吗？

看工具。Gemini 对中文 prompt 的理解度很好，直接用中文写就行。Midjourney 只吃英文，要自己翻译或请 AI 帮忙转成英文 prompt。ChatGPT 内置生图（现在跑的是 GPT Image 2.0，不是 DALL-E 3）用中文对话也没问题。

写 AI 绘图 prompt 最常见的方法是「一只企鹅在用电脑」这样丢一句话，然后等 AI 随机给结果。运气好偶尔能用，运气不好要重新生 7、8 次。把 prompt 结构化之后，成功率能从大概三成拉到七成。这篇整理小企鹅实际在用的方法。

Prompt 的四层结构

写 prompt 拆成四个区块，每个区块回答一个问题：

第一层：主体。要画什么？

最基本的一层。描述主角、场景、动作。越具体越好。「一只企鹅」跟「一只戴着橘色围巾、坐在书桌前的小企鹅，面前有一台打开的笔记本电脑」，生出来的结果完全不同。

第二层：风格。什么风格？

水彩、3D 渲染、像素风、彩色铅笔、日系插画、极简线条。风格决定整张图的「感觉」。彩色铅笔和平面插画风是相对不会有 AI 味的选择。

第三层：构图。怎么摆？

镜头角度（俯视、平视、仰角）、主体在画面的位置（中央、三分法偏左）、留白位置（右边留空放文字）、比例（16:9 横幅、1:1 方形）。

第四层：约束。不要什么？

这层很多人会忽略，但对控制产出质量很有效。「不要文字」「不要黄色嘴巴」「不要过度饱和的颜色」「不要照片写实风」。

Prompt 四层结构

Gemini/ChatGPT 实际命令示例

以下几组是小企鹅在 Gemini 上实际用过的格式。

示例 1：博客封面图

主体：一只小企鹅坐在桌前，面前摆着三台屏幕，屏幕上显示不同的 AI 工具界面
风格：彩色铅笔风格，柔和暖色调，略带手绘感
构图：16:9 横幅，企鹅在画面左三分之一处，右侧留白可放标题文字
约束：不要照片写实风，不要过度锐利的边缘，不要黄色尖嘴（嘴巴是橘色圆形）

示例 2：社区配图

主体：一只小企鹅拿着放大镜，看着一段散发光芒的代码
风格：平面插画风格，色块分明，有轻微纹理
构图：1:1 方形，主体置中，背景简洁
约束：不要 3D 效果，不要渐层背景，背景用单一浅色

示例 3：教程步骤示意图

主体：一个简单的流程图，左边是麦克风图示，中间是 AI 处理的齿轮图示，右边是字幕文字图示，用箭头连接
风格：线条插画，深蓝配橘色，干净俐落
构图：16:9 横幅，三个元素等距排列
约束：不要写实图片，不要多余装饰元素，如果有文字请用英文

这些示例的共同特点：用中文写、结构清楚、每个部分各占一行。Gemini 对这种格式的理解度很高，不需要像 Midjourney 那样用英文加上一堆 -- 参数。

更多场景 Prompt：直接复制就能用

上面三组偏工具型。下面这几组是实际工作时最常切换的场景。

文章封面图（博客、新闻稿）

场景： 博客文章、电子报、新闻稿要配的主图。尺寸通常 16:9，右侧要留给标题。 适用工具： Gemini/ChatGPT（首选，命令理解最好）、Midjourney（翻成英文后用） 使用方式： 把主题和标题关键字填进去，贴进 Gemini 聊天窗口。

主体：桌上散落着三本笔记本、一杯冒着热气的咖啡、一台打开的笔记本电脑，屏幕显示简单的文字编辑器
风格：水彩风格，柔和的早晨光线，略带纸张纹理
构图：16:9 横幅，对象集中在左半边，右半边留空白可以叠标题文字
色调：暖米色背景配浅褐和淡蓝，整体饱和度偏低
主题关键字：[填主题，例如：晨间写作习惯]
禁止：文字、logo、3D 效果、过度锐利的边缘、高饱和度的鲜艳色块

小企鹅提示： 博客封面要记得跟版面主色相呼应。实际做法是先贴一张既有封面，告诉 Gemini「参考这张的色调」，一致性会好很多。

社区帖子配图（IG、Threads、X）

场景： 短帖子要配的方形图或 4:5 直幅图。要吸睛、在滑动时能停住视线。 适用工具： Gemini、ChatGPT、Midjourney 使用方式： 依平台选比例，1:1 放 X 和 Threads，4:5 放 IG 和 Facebook。

主体：一个简单的视觉隐喻，表达 [帖子主题，例如：信息焦虑]
风格：平面插画，色块分明，有一点点手绘不规则感
构图：1:1 方形，主角置中偏上，下方留三分之一空间给叠字
色调：低饱和的莫兰迪色系，主色深蓝灰配一点暖橘
氛围：安静、带一点幽默感，像朋友在说一件小事
禁止：文字、脸部特写、高饱和霓虹、渐层背景、3D 渲染

小企鹅提示： 社区图最怕「太像」其他人。固定一个配色 palette（例如深蓝灰加暖橘），每张帖子都套同一组，看久了粉丝会认得这是你的图。

产品宣传图（电商、募资）

场景： 电商商品页、募资页的情境图。要让人看到就想买，又不能像罐头素材。 适用工具： Gemini/ChatGPT（首选，可以上传产品照参考）、Midjourney（做氛围图用） 使用方式： 一定要上传一张真实的产品照再用这段 prompt。

主体：参考上传的产品，把它放进一个日常使用的场景：[例如 周末下午的书桌上，旁边放着翻开的书和一杯茶]
风格：生活摄影感，自然光，浅景深
构图：4:5 直幅，产品在画面中央偏下三分之一的位置，上方背景稍微虚化
光线：侧光，从画面右上方进来，在产品上形成柔和的阴影
氛围：慢、安静、有生活感，像随手拍下的一瞬间
禁止：塑胶感、过度光滑、AI 味人物、握手和西装商务场景、伪造产品细节
重要：产品的外观、颜色、logo 必须跟上传的图完全一致，不能改动

小企鹅提示： 最后一行「产品外观不能改动」很重要。Gemini 有时候会善意地帮忙「美化」产品，结果画出来的东西跟实品差一个色号，客户会生气。

人物插图（避免 AI 脸的技巧）

场景： 博客插图需要出现人物。AI 画的脸常常有不自然的眼神和牙齿。 适用工具： Gemini、ChatGPT、Midjourney 使用方式： 关键是避开正面特写、改用背影或侧脸。

主体：一个人坐在窗边的书桌前，从背后或侧面看过去，手边有一本书和一支笔
风格：彩色铅笔手绘风，纸张纹理明显，线条略有抖动感
构图：16:9 横幅，人物在画面左侧三分之一处，不显示正面五官
角度：从后斜上方 45 度俯视，看到后脑勺和肩膀，脸部朝向窗外
色调：午后阳光的暖橘配淡绿，低饱和
禁止：正面人脸、牙齿特写、对视镜头的眼神、塑胶感皮肤、完美五官

小企鹅提示： 只要 prompt 里有「正面」「特写」这类字，AI 就很容易画出怪脸。改用「背影」「侧脸 45 度」「只到肩膀」这些描述，几乎不会出错。如果真的需要脸，建议改用真人素材或自己拍。

信息图表（流程图、比较图）

场景： 文章里要一张简单的示意图说明流程或比较。不是正式的 infographic。 适用工具： Gemini/ChatGPT（可以画简单线条图）、手动用 Figma 做（最稳，AI 出来的图常常字会糊） 使用方式： 如果图里有文字，建议让 AI 画纯图形，文字自己用 Figma 叠上去。

主体：一张简单的三步骤流程图，三个圆角方块由左到右排列，中间用箭头连接
元素：
  第一格：一张纸的图示，代表输入数据
  第二格：齿轮和 AI 晶片的组合，代表处理
  第三格：一个对话框图示，代表输出
风格：极简线条插画，粗细一致的描边，没有填色或只填浅色
构图：16:9 横幅，三个方块等距排列，背景留白
色调：背景纯白 #FFFFFF，线条深灰 #2D3748，重点色用一点浅蓝 #90CDF4
禁止：任何文字（中英都不要）、3D 立体、渐层、阴影、多余装饰

小企鹅提示： 最后那句「任何文字都不要」是关键。AI 画字几乎一定会糊或错字，不如直接留空，回 Figma 再叠干净的中文。这招可以省掉一整轮重试。

参考图：提高一致性的关键

纯文字 prompt 有一个天花板：AI 对「脑中的画面」永远只能猜。参考图可以大幅拉近这个差距。

实际做法是直接把图片上传到 Gemini，然后告诉它「参考这张图的风格和角色造型，生成以下内容」。

这招在解决角色一致性问题上特别有效。例如品牌企鹅有橘色圆嘴，但 AI 的训练数据里真企鹅都是黄色尖嘴，光用文字强调「橘色圆嘴」常会被模型「拉回」黄色尖嘴。附上参考图之后，错误率明显下降。

Prompt 优化前后对比

怎么降低 AI 感

AI 生图有一种一眼就能认出来的「AI 感」。高饱和度、过度光滑的质感、每个边缘都锐利到不自然、光影太完美、渐层。降低这个问题有几种方式：

指定有纹理的风格。 彩色铅笔、水彩、粉彩、蜡笔。这些风格自带不规则的笔触和纹理，天然就比 3D 渲染风格更不像 AI。

降低饱和度。 在 prompt 里加上「柔和色调」「低饱和」「muted colors」。AI 默认的颜色偏向高饱和，压下来之后整体看起来舒服很多。

加一点不完美。 「略带手绘感」「边缘不要太锐利」「自然的光影，不要过度 HDR」。这些小命令可以让成品少一点那种「太干净」的感觉。

避开 AI 最擅长的风格。 超写实人像、科幻场景、3D 产品渲染图。这些是 AI 的舒适区，一生成就很明显是 AI 做的。彩色铅笔、手绘这类「不完美」风格的 AI 感反而会低很多。

小企鹅品牌的配图几乎都用彩色铅笔风格，原因很单纯：最不容易被一眼看出是 AI 生成的。

踩坑：企鹅嘴巴的故事

这个坑值得单独讲，因为它呈现了 AI 生图的一个根本限制。

品牌企鹅有橘色圆嘴。很简单的特征，但 AI 就是会画错。

第一个直觉是 prompt 写得不够清楚，于是加了 the penguin has an brown rounded beak, NOT yellow, NOT pointy。有改善，但还是偶尔出错。

实际原因是模型训练数据里有数百万张企鹅照片，绝大多数企鹅嘴巴都是黄色尖的。prompt 再怎么强调，模型的「本能」还是会把它拉回黄色尖嘴。

最终解法是参考图加文字约束一起上。附上一张嘴巴正确的参考图，同时在 prompt 里明确写出「orange rounded beak」。双管齐下之后成功率才稳定。

教训：AI 的产出跟训练数据有很强的关联。要的东西跟训练数据里的常见样式不同时，光靠文字描述不够，一定要给视觉参考。

各工具 Prompt 写法比较

比较项目	Gemini（Nano Banana Pro / Nano Banana 2）	Midjourney 最新版	ChatGPT 内置（GPT Image 2.0）
语言	中文、英文都行	只吃英文	中文可以（对话自动转译）
格式	自然语言，不用特殊语法	需要 `--ar`、`--style` 等参数	自然语言，对话式
负面约束	直接写「不要 XX」	用 `--no` 参数	直接写「不要 XX」
参考图	上传图片加文字描述	用图片 URL 加 `/describe`	ChatGPT 对话可以附图
风格控制	用文字描述风格	`--style raw` 加风格关键字	用文字描述，控制力较弱
上手难度	低	高	低

不同模型版本的细节差异可以再看 Gemini 免费版 vs Pro 版差异。

完整生图流程

从想图到完成的流程：

先想好这张图的用途和放置位置
用四层结构写 prompt（主体、风格、构图、约束）
如果涉及品牌角色，附上参考图
生成 3-4 张，挑最接近的
如果都不对，调整 prompt 里最弱的那一层，再生一轮
挑好之后用 Figma 做最后微调（加文字、调配色、裁切）

整个流程一张图大约 5-15 分钟。第一次画的新场景会久一点，因为要多试几轮抓到对的方向。

FAQ

AI 绘图 prompt 怎么写才不会出奇怪的图？

关键是结构化。把 prompt 拆成四个区块：主体、风格、构图、约束。每个区块写得越具体，AI 偏离预期的几率越低。特别注意约束层，明确告诉 AI 什么不要，比告诉它什么要更有效。

为什么 AI 画的图看起来很假？

多半是风格问题。AI 默认的渲染风格偏向高饱和、光滑质感、过度锐利，这就是所谓的「AI 感」。指定手绘、水彩、彩色铅笔等有纹理的风格可以大幅降低这种感觉。

AI 绘图 prompt 可以用中文写吗？

看工具。Gemini 与 ChatGPT 对中文 prompt 的理解度很好，直接用中文写就行。Midjourney 只吃英文，要自己翻译或请 AI 帮忙转成英文 prompt。

Prompt 里最容易被忽略的部分是什么？

约束层。大部分人只告诉 AI「要什么」，但没说「不要什么」。加上负面约束（不要文字、不要过度饱和、不要黄色嘴巴之类的），能大幅减少需要重新生成的次数。

怎么让 AI 每次生出风格一致的图？

附参考图是最有效的方法。把一张已经确认 OK 的图上传，然后请 AI 参考这张图的风格。同一个 session 内连续生成也能维持一定的一致性，但隔天重开就会跑掉。

小企鹅的经验

小企鹅最早接触 AI 生图是在 Midjourney 早期 Discord 界面那段时间。后来主力切到 Gemini 与 ChatGPT，理由很简单：中文命令服从度好、可以直接上传参考图、品牌角色一致性比纯文字描述稳很多。Canva 的 AI 生图也试过一阵子，色彩渐层的处理跟整体质感不太合用，后来就没再回去。

「彩色铅笔 + 禁渐层」这组关键字是小企鹅品牌图的固定底色。原因是 AI 默认那种高饱和、渐层、3D 质感的风格太容易被一眼认出，彩色铅笔风格自带手绘纹理和不规则感，掉到 AI 味的几率最低。

Prompt 库的累积也是这几年慢慢做出来的习惯。每次找到好的命令结构就存下来，下次需要类似主题的图直接拿出来改几个字，比每次从零开始快很多。pen-pings 系列就是把这些常用 prompt 整理出来的分享格式。

Prompt 这件事没有尽头。每次换一个工具版本，之前好用的写法可能就不管用了，不同模型跑出来的也会有不一样结果。长期来看，能稳定产出可用图的关键在于建立自己的命令库，依照工具版本逐步迭代，而不是死守某一组「神 prompt」。

延伸阅读

整理：Penna｜小企鹅 Penchan