ChatGPT和MidJourney的提示词到底怎么写?

17 人参与

打开ChatGPT,输入“帮我写一篇文章”,得到的回复可能中规中矩,但总差那么点意思;在MidJourney里扔进一句“画一个女孩”,生成的图片可能很美,却总不是你脑海中的那个她。问题出在哪?核心在于,我们还在用“对人说话”的方式,去给AI下指令。而高效的提示词,更像是在为一位能力超群但思维迥异的外星伙伴编写一份精密的“工作说明书”。

核心分歧:文本与图像的生成逻辑

ChatGPT这类大语言模型,处理的是“概率与逻辑”。你给的提示词,是它预测下一个词、下一段话的起点和约束。它的思考是线性的、语境依赖的。而MidJourney这类扩散模型,处理的则是“噪声与概念”。你的提示词,会被转化为一系列潜在空间中的向量,模型的任务是从一片混沌的像素噪声中,逐步“去噪”,显化出与这些向量匹配的图像。它的思考是并行的、关联性的。

理解这个根本差异,是写好提示词的第一步。对ChatGPT,你需要搭建清晰的叙事或逻辑框架;对MidJourney,你需要堆叠精确的视觉元素与风格锚点。

ChatGPT:从“聊天”到“框架填充”

别再把它当成问答机器。把它想象成一个拥有海量知识、但需要你引导方向的实习生。一个高效的提示词,通常包含以下几个要素:

  • 角色扮演:明确它的身份。“你是一位拥有20年经验的科技专栏编辑”远比“帮我写”有效。这设定了它的知识范围、语言风格和思考角度。
  • 任务目标:具体,再具体。“写一篇关于新能源车电池技术进展的文章”是平庸的。“撰写一篇面向投资者的分析简报,重点对比宁德时代麒麟电池与比亚迪刀片电池在能量密度、成本和安全性的最新数据,并预测未来两年技术路线”才叫指令。
  • 输出格式:规定结构。“请用分点论述,每个论点后附一个简短案例”或“首段给出核心结论,正文分三个小节,末尾总结趋势”。你甚至可以直接给它一个Markdown模板。
  • 风格与限制:“语言严谨,避免使用夸张的营销词汇”,“字数控制在800字以内”,“避免讨论政策风险”。

一个经典的进阶技巧是“少样本提示”。在指令中,先给它一两个你期望风格的示例。比如,先写一段你想要的引言风格,然后说“请按照上述风格和结构,完成剩余部分”。这相当于为模型做了最直接的微调。

MidJourney:从“描述”到“视觉咒语”

在MidJourney的世界里,提示词是“咒语”,每个词都有其权重。它的语法逻辑遵循一个隐形的公式:[主体] + [细节描述] + [风格/艺术家/媒介] + [技术参数]

  • 主体:核心描绘对象。要具体。“一位女武士”不如“一位身着唐代明光铠、手持环首刀的女武士”。
  • 细节描述:环境、光影、情绪、动作、材质。“站在竹林暴雨中,雨水顺着铠甲纹路流淌,眼神坚毅,动态模糊”。细节是让图像脱离平庸的关键。
  • 风格/艺术家/媒介:这是赋予图像“灵魂”的杠杆。是“赛博朋克风格”、“宫崎骏动画风格”,还是“像是莫奈的油画”、“安迪·沃霍尔的波普艺术”?“电影剧照”、“粘土动画”、“3D渲染图”这些媒介描述也极为有效。
  • 技术参数:–ar 16:9(长宽比),–v 5.2(模型版本),–s 750(风格化值),–no text(排除元素)。这些参数是最终成像质量的调控阀。

这里有个反直觉的要点:不要用人类的语法。MidJourney并非理解句子,而是在识别关键词。所以,“一个在夕阳下有着长长影子的孤独牛仔”可以精简优化为“lonely cowboy, long shadow, sunset, cinematic lighting, wide shot, vast desert”。用逗号分隔概念,像堆叠乐高一样组合视觉元素。

共通的黄金法则:迭代与“对齐”

无论针对哪种AI,一次成功的提示,很少一蹴而就。它必然是一个迭代对话的过程。ChatGPT生成了初稿,你可以指出“第二部分的数据不够新,请替换为2023年的统计”,或者“把语气调整得更批判一些”。MidJourney出了图,你可以基于某一张进行“变体”,并追加“让铠甲更有金属质感,背景增加远山”这样的微调指令。

这个过程的本质,是让你脑海中的抽象概念,与AI的生成能力不断“对齐”。你的提示词越能精准地拆解和表达你的需求,AI的“脑补”就越少,产出就越符合预期。这不像下命令,更像是在共同创作中,不断校准彼此的频率。

参与讨论

17 条评论