写 AI 绘图 prompt 最常见的方法是「一只企鹅在用电脑」这样丢一句话,然后等 AI 随机给结果。运气好偶尔能用,运气不好要重新生 7、8 次。把 prompt 结构化之后,成功率能从大概三成拉到七成。这篇整理小企鹅实际在用的方法。

Prompt 的四层结构

写 prompt 拆成四个区块,每个区块回答一个问题:

第一层:主体。要画什么?

最基本的一层。描述主角、场景、动作。越具体越好。「一只企鹅」跟「一只戴着橘色围巾、坐在书桌前的小企鹅,面前有一台打开的笔记本电脑」,生出来的结果完全不同。

第二层:风格。什么风格?

水彩、3D 渲染、像素风、彩色铅笔、日系插画、极简线条。风格决定整张图的「感觉」。彩色铅笔和平面插画风是相对不会有 AI 味的选择。

第三层:构图。怎么摆?

镜头角度(俯视、平视、仰角)、主体在画面的位置(中央、三分法偏左)、留白位置(右边留空放文字)、比例(16:9 横幅、1:1 方形)。

第四层:约束。不要什么?

这层很多人会忽略,但对控制产出质量很有效。「不要文字」「不要黄色嘴巴」「不要过度饱和的颜色」「不要照片写实风」。

Prompt 四层结构

Gemini/ChatGPT 实际命令示例

以下几组是小企鹅在 Gemini 上实际用过的格式。

示例 1:博客封面图

主体:一只小企鹅坐在桌前,面前摆着三台屏幕,屏幕上显示不同的 AI 工具界面
风格:彩色铅笔风格,柔和暖色调,略带手绘感
构图:16:9 横幅,企鹅在画面左三分之一处,右侧留白可放标题文字
约束:不要照片写实风,不要过度锐利的边缘,不要黄色尖嘴(嘴巴是橘色圆形)

示例 2:社区配图

主体:一只小企鹅拿着放大镜,看着一段散发光芒的代码
风格:平面插画风格,色块分明,有轻微纹理
构图:1:1 方形,主体置中,背景简洁
约束:不要 3D 效果,不要渐层背景,背景用单一浅色

示例 3:教程步骤示意图

主体:一个简单的流程图,左边是麦克风图示,中间是 AI 处理的齿轮图示,右边是字幕文字图示,用箭头连接
风格:线条插画,深蓝配橘色,干净俐落
构图:16:9 横幅,三个元素等距排列
约束:不要写实图片,不要多余装饰元素,如果有文字请用英文

这些示例的共同特点:用中文写、结构清楚、每个部分各占一行。Gemini 对这种格式的理解度很高,不需要像 Midjourney 那样用英文加上一堆 -- 参数。

更多场景 Prompt:直接复制就能用

上面三组偏工具型。下面这几组是实际工作时最常切换的场景。

文章封面图(博客、新闻稿)

场景: 博客文章、电子报、新闻稿要配的主图。尺寸通常 16:9,右侧要留给标题。 适用工具: Gemini/ChatGPT(首选,命令理解最好)、Midjourney(翻成英文后用) 使用方式: 把主题和标题关键字填进去,贴进 Gemini 聊天窗口。

主体:桌上散落着三本笔记本、一杯冒着热气的咖啡、一台打开的笔记本电脑,屏幕显示简单的文字编辑器
风格:水彩风格,柔和的早晨光线,略带纸张纹理
构图:16:9 横幅,对象集中在左半边,右半边留空白可以叠标题文字
色调:暖米色背景配浅褐和淡蓝,整体饱和度偏低
主题关键字:[填主题,例如:晨间写作习惯]
禁止:文字、logo、3D 效果、过度锐利的边缘、高饱和度的鲜艳色块

小企鹅提示: 博客封面要记得跟版面主色相呼应。实际做法是先贴一张既有封面,告诉 Gemini「参考这张的色调」,一致性会好很多。

社区帖子配图(IG、Threads、X)

场景: 短帖子要配的方形图或 4:5 直幅图。要吸睛、在滑动时能停住视线。 适用工具: Gemini、ChatGPT、Midjourney 使用方式: 依平台选比例,1:1 放 X 和 Threads,4:5 放 IG 和 Facebook。

主体:一个简单的视觉隐喻,表达 [帖子主题,例如:信息焦虑]
风格:平面插画,色块分明,有一点点手绘不规则感
构图:1:1 方形,主角置中偏上,下方留三分之一空间给叠字
色调:低饱和的莫兰迪色系,主色深蓝灰配一点暖橘
氛围:安静、带一点幽默感,像朋友在说一件小事
禁止:文字、脸部特写、高饱和霓虹、渐层背景、3D 渲染

小企鹅提示: 社区图最怕「太像」其他人。固定一个配色 palette(例如深蓝灰加暖橘),每张帖子都套同一组,看久了粉丝会认得这是你的图。

产品宣传图(电商、募资)

场景: 电商商品页、募资页的情境图。要让人看到就想买,又不能像罐头素材。 适用工具: Gemini/ChatGPT(首选,可以上传产品照参考)、Midjourney(做氛围图用) 使用方式: 一定要上传一张真实的产品照再用这段 prompt。

主体:参考上传的产品,把它放进一个日常使用的场景:[例如 周末下午的书桌上,旁边放着翻开的书和一杯茶]
风格:生活摄影感,自然光,浅景深
构图:4:5 直幅,产品在画面中央偏下三分之一的位置,上方背景稍微虚化
光线:侧光,从画面右上方进来,在产品上形成柔和的阴影
氛围:慢、安静、有生活感,像随手拍下的一瞬间
禁止:塑胶感、过度光滑、AI 味人物、握手和西装商务场景、伪造产品细节
重要:产品的外观、颜色、logo 必须跟上传的图完全一致,不能改动

小企鹅提示: 最后一行「产品外观不能改动」很重要。Gemini 有时候会善意地帮忙「美化」产品,结果画出来的东西跟实品差一个色号,客户会生气。

人物插图(避免 AI 脸的技巧)

场景: 博客插图需要出现人物。AI 画的脸常常有不自然的眼神和牙齿。 适用工具: Gemini、ChatGPT、Midjourney 使用方式: 关键是避开正面特写、改用背影或侧脸。

主体:一个人坐在窗边的书桌前,从背后或侧面看过去,手边有一本书和一支笔
风格:彩色铅笔手绘风,纸张纹理明显,线条略有抖动感
构图:16:9 横幅,人物在画面左侧三分之一处,不显示正面五官
角度:从后斜上方 45 度俯视,看到后脑勺和肩膀,脸部朝向窗外
色调:午后阳光的暖橘配淡绿,低饱和
禁止:正面人脸、牙齿特写、对视镜头的眼神、塑胶感皮肤、完美五官

小企鹅提示: 只要 prompt 里有「正面」「特写」这类字,AI 就很容易画出怪脸。改用「背影」「侧脸 45 度」「只到肩膀」这些描述,几乎不会出错。如果真的需要脸,建议改用真人素材或自己拍。

信息图表(流程图、比较图)

场景: 文章里要一张简单的示意图说明流程或比较。不是正式的 infographic。 适用工具: Gemini/ChatGPT(可以画简单线条图)、手动用 Figma 做(最稳,AI 出来的图常常字会糊) 使用方式: 如果图里有文字,建议让 AI 画纯图形,文字自己用 Figma 叠上去。

主体:一张简单的三步骤流程图,三个圆角方块由左到右排列,中间用箭头连接
元素:
  第一格:一张纸的图示,代表输入数据
  第二格:齿轮和 AI 晶片的组合,代表处理
  第三格:一个对话框图示,代表输出
风格:极简线条插画,粗细一致的描边,没有填色或只填浅色
构图:16:9 横幅,三个方块等距排列,背景留白
色调:背景纯白 #FFFFFF,线条深灰 #2D3748,重点色用一点浅蓝 #90CDF4
禁止:任何文字(中英都不要)、3D 立体、渐层、阴影、多余装饰

小企鹅提示: 最后那句「任何文字都不要」是关键。AI 画字几乎一定会糊或错字,不如直接留空,回 Figma 再叠干净的中文。这招可以省掉一整轮重试。

参考图:提高一致性的关键

纯文字 prompt 有一个天花板:AI 对「脑中的画面」永远只能猜。参考图可以大幅拉近这个差距。

实际做法是直接把图片上传到 Gemini,然后告诉它「参考这张图的风格和角色造型,生成以下内容」。

这招在解决角色一致性问题上特别有效。例如品牌企鹅有橘色圆嘴,但 AI 的训练数据里真企鹅都是黄色尖嘴,光用文字强调「橘色圆嘴」常会被模型「拉回」黄色尖嘴。附上参考图之后,错误率明显下降。

Prompt 优化前后对比

怎么降低 AI 感

AI 生图有一种一眼就能认出来的「AI 感」。高饱和度、过度光滑的质感、每个边缘都锐利到不自然、光影太完美、渐层。降低这个问题有几种方式:

指定有纹理的风格。 彩色铅笔、水彩、粉彩、蜡笔。这些风格自带不规则的笔触和纹理,天然就比 3D 渲染风格更不像 AI。

降低饱和度。 在 prompt 里加上「柔和色调」「低饱和」「muted colors」。AI 默认的颜色偏向高饱和,压下来之后整体看起来舒服很多。

加一点不完美。 「略带手绘感」「边缘不要太锐利」「自然的光影,不要过度 HDR」。这些小命令可以让成品少一点那种「太干净」的感觉。

避开 AI 最擅长的风格。 超写实人像、科幻场景、3D 产品渲染图。这些是 AI 的舒适区,一生成就很明显是 AI 做的。彩色铅笔、手绘这类「不完美」风格的 AI 感反而会低很多。

小企鹅品牌的配图几乎都用彩色铅笔风格,原因很单纯:最不容易被一眼看出是 AI 生成的。

踩坑:企鹅嘴巴的故事

这个坑值得单独讲,因为它呈现了 AI 生图的一个根本限制。

品牌企鹅有橘色圆嘴。很简单的特征,但 AI 就是会画错。

第一个直觉是 prompt 写得不够清楚,于是加了 the penguin has an brown rounded beak, NOT yellow, NOT pointy。有改善,但还是偶尔出错。

实际原因是模型训练数据里有数百万张企鹅照片,绝大多数企鹅嘴巴都是黄色尖的。prompt 再怎么强调,模型的「本能」还是会把它拉回黄色尖嘴。

最终解法是参考图加文字约束一起上。附上一张嘴巴正确的参考图,同时在 prompt 里明确写出「orange rounded beak」。双管齐下之后成功率才稳定。

教训:AI 的产出跟训练数据有很强的关联。要的东西跟训练数据里的常见样式不同时,光靠文字描述不够,一定要给视觉参考。

各工具 Prompt 写法比较

比较项目Gemini(Nano Banana Pro / Nano Banana 2)Midjourney 最新版ChatGPT 内置(GPT Image 2.0)
语言中文、英文都行只吃英文中文可以(对话自动转译)
格式自然语言,不用特殊语法需要 --ar--style 等参数自然语言,对话式
负面约束直接写「不要 XX」--no 参数直接写「不要 XX」
参考图上传图片加文字描述用图片 URL 加 /describeChatGPT 对话可以附图
风格控制用文字描述风格--style raw 加风格关键字用文字描述,控制力较弱
上手难度

不同模型版本的细节差异可以再看 Gemini 免费版 vs Pro 版差异

完整生图流程

从想图到完成的流程:

  1. 先想好这张图的用途和放置位置
  2. 用四层结构写 prompt(主体、风格、构图、约束)
  3. 如果涉及品牌角色,附上参考图
  4. 生成 3-4 张,挑最接近的
  5. 如果都不对,调整 prompt 里最弱的那一层,再生一轮
  6. 挑好之后用 Figma 做最后微调(加文字、调配色、裁切)

整个流程一张图大约 5-15 分钟。第一次画的新场景会久一点,因为要多试几轮抓到对的方向。

FAQ

AI 绘图 prompt 怎么写才不会出奇怪的图?

关键是结构化。把 prompt 拆成四个区块:主体、风格、构图、约束。每个区块写得越具体,AI 偏离预期的几率越低。特别注意约束层,明确告诉 AI 什么不要,比告诉它什么要更有效。

为什么 AI 画的图看起来很假?

多半是风格问题。AI 默认的渲染风格偏向高饱和、光滑质感、过度锐利,这就是所谓的「AI 感」。指定手绘、水彩、彩色铅笔等有纹理的风格可以大幅降低这种感觉。

AI 绘图 prompt 可以用中文写吗?

看工具。Gemini 与 ChatGPT 对中文 prompt 的理解度很好,直接用中文写就行。Midjourney 只吃英文,要自己翻译或请 AI 帮忙转成英文 prompt。

Prompt 里最容易被忽略的部分是什么?

约束层。大部分人只告诉 AI「要什么」,但没说「不要什么」。加上负面约束(不要文字、不要过度饱和、不要黄色嘴巴之类的),能大幅减少需要重新生成的次数。

怎么让 AI 每次生出风格一致的图?

附参考图是最有效的方法。把一张已经确认 OK 的图上传,然后请 AI 参考这张图的风格。同一个 session 内连续生成也能维持一定的一致性,但隔天重开就会跑掉。


小企鹅的经验

小企鹅最早接触 AI 生图是在 Midjourney 早期 Discord 界面那段时间。后来主力切到 Gemini 与 ChatGPT,理由很简单:中文命令服从度好、可以直接上传参考图、品牌角色一致性比纯文字描述稳很多。Canva 的 AI 生图也试过一阵子,色彩渐层的处理跟整体质感不太合用,后来就没再回去。

「彩色铅笔 + 禁渐层」这组关键字是小企鹅品牌图的固定底色。原因是 AI 默认那种高饱和、渐层、3D 质感的风格太容易被一眼认出,彩色铅笔风格自带手绘纹理和不规则感,掉到 AI 味的几率最低。

Prompt 库的累积也是这几年慢慢做出来的习惯。每次找到好的命令结构就存下来,下次需要类似主题的图直接拿出来改几个字,比每次从零开始快很多。pen-pings 系列就是把这些常用 prompt 整理出来的分享格式。

Prompt 这件事没有尽头。每次换一个工具版本,之前好用的写法可能就不管用了,不同模型跑出来的也会有不一样结果。长期来看,能稳定产出可用图的关键在于建立自己的命令库,依照工具版本逐步迭代,而不是死守某一组「神 prompt」。

延伸阅读


整理:Penna|小企鹅 Penchan