自从2014年Ian Goodfellow等人在《NIPS》上提出生成对抗网络(GAN)以来,研究者们把它当作一种“博弈式学习”,让两个神经网络在同一画布上互相较量。生成器像画家,尝试把噪声画成逼真的图像;判别器则像鉴赏家,辨认真伪。每一次对决的结果都会被反馈回去,推动两者在梯度空间里同步前进。
数学上,GAN的目标可以写成一个极小极大(min‑max)游戏:min_G max_D V(D,G)=E_{x∼p_{data}}[log D(x)]+E_{z∼p_z}[log(1‑D(G(z)))]。生成器试图最小化判别器成功率,判别器则最大化其辨识能力。理论上,当两者达到纳什均衡时,生成的分布会与真实数据分布完全重合。实践中,却常常出现模式崩塌——生成器只会复制少数几种样本。
为缓解训练不稳,研究者引入了卷积结构(DCGAN),让生成器和判别器都拥有层次化特征提取能力。随后,Wasserstein GAN(WGAN)用Earth‑Mover距离替代JS散度,大幅提升梯度信号的可靠性。StyleGAN系列更进一步,将潜在向量映射为可控的风格层级,让人们只动动滑块,就能生成“从未见过的”人脸,甚至在2022年的一项实验中,合成的肖像被专业摄影师误判为真实。
“如果把生成器比作艺术家,判别器就是批评家;只有当批评家挑剔到极致,艺术家才会真正突破常规。”——Ian Goodfellow
从最初的概念验证到如今的工业级部署,GAN已经渗透进图像合成、数据增强、逆向工程等多个场景。每一次噪声到真实的转变,都像是一次潜在空间的探索,提醒我们:在对抗的背后,真正的创新往往来自于不确定性的拥抱。
参与讨论
暂无评论,快来发表你的观点吧!