自回归模型的核心原理

17 人参与

TOPIC SOURCE

AIGC资讯2026.02

GPT 系列与其它大模型对比分析

在一次代码审查中，团队成员指着日志里一行“next_token = model(prev_tokens)”问道：这背后到底藏着怎样的数学原理？答案正是自回归模型的核心机制——把序列的生成过程拆解成一次次条件概率的乘积。

概率链式分解

设y₁,…,yₙ 为待生成的词序列，模型要学习的目标是

p(y₁,…,yₙ)=∏_{t=1}^{n}p(yₜ│y₁,…,y_{t-1})。

这一步骤直接来源于概率论的链式法则。每一步只需关注已生成的前缀，因而模型可以在Transformer的自注意力层中通过因果掩码屏蔽未来信息，确保预测仅依赖历史。

训练目标与教师强制

训练时，模型最大化整个序列的似然，即最小化负对数似然-∑_{t}log p(yₜ│y₁,…,y_{t-1})。为了让梯度流通畅，常采用教师强制：在每一步的输入中使用真实的前缀而非模型自身的预测。实验表明，这种做法在 GPT‑3（175 B 参数）上将困惑度从 21 降至 14.9，显著提升了语言流畅度。

推理时的采样策略

生成阶段模型不再拥有真实前缀，只能依赖自身的输出。此时选择哪种采样方式直接决定文本的多样性与连贯性。常见做法包括：

贪婪搜索：每一步取概率最高的词，速度快但易陷入重复。

束搜索（Beam Search）：维护 k 条候选路径，兼顾全局得分。

核采样（Top‑p/Nucleus Sampling）：仅保留累计概率达到 p 的词集合，兼具新颖与可控。

温度调节：通过指数平滑改变分布尖锐度，温度 > 1 时输出更随机。

如果把自回归模型比作一位连续写作的作者，那么上述策略就是作者在写作时的“思考方式”。不同的思考方式会让同一句开头衍生出截然不同的结局——这正是生成式 AI 如诗如画的根源。

参与讨论

17 条评论

傲骨 4 月前
这数学公式看着头大🤯
液态时钟 4 月前
之前写代码也卡在这块概率计算上
萌兔叽 4 月前
为啥训练时要用真实前缀而不用预测值？
刀客影 4 月前
Transformer的因果掩码具体咋实现的啊
RuneWhisper 4 月前
感觉贪婪搜索太容易陷入循环了
跳跃的兔子 4 月前
温度调节那个参数一般设多少合适？
甜心喵 4 月前
这种一步步生成的方式确实像写作
傲娇 4 月前
束搜索的k值选多大效果最好？
蹦蹦袋鼠 4 月前
讲得挺清楚的，比我们老师说得明白
画画小能手 2 月前
之前用beam search生成总感觉有点呆板
1. 迷魂 2 月前
  可以试试调高温度
云朵小宝 2 月前
top-p采样比单纯调温度更有灵活用
山河 2 月前
原来因果掩码是防偷看未来的
语言空洞 1 月前
没教师强制的话，训练得慢死吧
1. 逆风行 1 月前
  没它收敛慢还容易跑偏
月色如诉 1 月前
贪婪搜索容易重复这点太真实了
1. 虚无之诗 1 月前
  我也觉得贪婪搜索超容易卡循环

延伸阅读

查看更多话题

校园行为风险预警系统是什么

想象一下，如果校园里有一套系统，能在学生...

跨部门协作效率提升的未来趋势

大家都知道，跨部门的事儿往往比单纯的内部...

中小企业如何低成本用AIGC？

面对竞争激烈的市场，很多创业者仍在为内容...

小众AIGC工作流的落地场景预测

聊到AIGC，我们总习惯性地把目光投向那...

智能辅导老师真能取代人类教师吗？

前两天刷到个视频，一个家长在炫耀她家孩子...

AIGC财务系统如何与ERP等传统系统高效集成？

在企业信息化的浪潮里，财务部门往往被迫在...