自回归模型的核心原理

9 人参与

TOPIC SOURCE

AIGC资讯2026.02

GPT 系列与其它大模型对比分析

在一次代码审查中，团队成员指着日志里一行“next_token = model(prev_tokens)”问道：这背后到底藏着怎样的数学原理？答案正是自回归模型的核心机制——把序列的生成过程拆解成一次次条件概率的乘积。

概率链式分解

设y₁,…,yₙ 为待生成的词序列，模型要学习的目标是

p(y₁,…,yₙ)=∏_{t=1}^{n}p(yₜ│y₁,…,y_{t-1})。

这一步骤直接来源于概率论的链式法则。每一步只需关注已生成的前缀，因而模型可以在Transformer的自注意力层中通过因果掩码屏蔽未来信息，确保预测仅依赖历史。

训练目标与教师强制

训练时，模型最大化整个序列的似然，即最小化负对数似然-∑_{t}log p(yₜ│y₁,…,y_{t-1})。为了让梯度流通畅，常采用教师强制：在每一步的输入中使用真实的前缀而非模型自身的预测。实验表明，这种做法在 GPT‑3（175 B 参数）上将困惑度从 21 降至 14.9，显著提升了语言流畅度。

推理时的采样策略

生成阶段模型不再拥有真实前缀，只能依赖自身的输出。此时选择哪种采样方式直接决定文本的多样性与连贯性。常见做法包括：

贪婪搜索：每一步取概率最高的词，速度快但易陷入重复。

束搜索（Beam Search）：维护 k 条候选路径，兼顾全局得分。

核采样（Top‑p/Nucleus Sampling）：仅保留累计概率达到 p 的词集合，兼具新颖与可控。

温度调节：通过指数平滑改变分布尖锐度，温度 > 1 时输出更随机。

如果把自回归模型比作一位连续写作的作者，那么上述策略就是作者在写作时的“思考方式”。不同的思考方式会让同一句开头衍生出截然不同的结局——这正是生成式 AI 如诗如画的根源。

参与讨论

9 条评论

傲骨 2 月前
这数学公式看着头大🤯
液态时钟 2 月前
之前写代码也卡在这块概率计算上
萌兔叽 2 月前
为啥训练时要用真实前缀而不用预测值？
刀客影 2 月前
Transformer的因果掩码具体咋实现的啊
RuneWhisper 2 月前
感觉贪婪搜索太容易陷入循环了
跳跃的兔子 2 月前
温度调节那个参数一般设多少合适？
甜心喵 2 月前
这种一步步生成的方式确实像写作
傲娇 2 月前
束搜索的k值选多大效果最好？
蹦蹦袋鼠 2 月前
讲得挺清楚的，比我们老师说得明白

延伸阅读

查看更多话题

一文读懂AIGC合规：数据安全与行业适配的关键

去年某金融机构在引入生成式AI模型时，因...

智能审批未来将如何改变企业管理模式？

前阵子跟一个做财务的朋友吃饭，听他大倒苦...

详解RPA自动化工具的技术原理

你可能听过太多关于RPA（机器人流程自动...

AI生成图片如何避免侵权？

上个月，朋友小张兴冲冲地拿他刚做的电商海...

AIGC模型的可解释性到底有多重要？

前几天有个做设计的朋友向我抱怨，她用AI...

普通用户如何挑选合适的AI写作工具？

最近发现身边不少朋友都在琢磨着用AI写东...