原文链接:https://towardsdatascience.com/generative-models-and-the-dance-of-noise-and-structure-e72fe7494f4f

想象一下,如果把我们现在广泛使用的人工智能技术展示给文艺复兴时期的意大利人,他们会觉得最令人震惊的技术是什么?达芬奇跃跃欲试地设计飞行器,想必会对空中巨无霸A380客机大加赞赏;而我们手中的“魔法盒子”(智能手机)提供的图像生成技术,想必更会让达芬奇瞠目结舌。

看看下面这个例子,我只需要给DALL-E下达一个简单指令,它就能在几秒内创作出类似达芬奇作品风格的画像。哇噻,这简直是巫术啊!
Portrait of a woman in the style of Leonardo da Vinci

当然,仔细看这个女子的笑容还不如真迹《蒙娜丽莎》的神秘和诱人;不过,对一个算法来说,也算是相当不错的“临摹”了。这种看似玄幻的图像生成技术,正是当前最热门的生成式AI模型的杰作。这些“梦想家硅基大脑”能从无中创造有,从噪声中探求规律。它们已经开始改变我们对创造力和天才的理解,并打开通往成千上万新的应用的大门。

但这些生成式模型究竟是怎么做到的?它们又会给我们的世界带来什么冲击?在这篇文章中,笔者将带您揭开这些算法的神秘面纱,深入解析几大类生成式模型的基本机制、物理直觉及其与认知神经科学的关联。

一、从海尔姆霍兹机器说起

海尔姆霍兹机器的设计原理可以追溯到19世纪德国物理学家赫尔姆霍兹的一个极具远见的观点:感知是无意识地从感官输入和先验知识做出推理,而不是对客观世界的反映。这预示了后来盛行的贝叶斯大脑假说:认知本质上是概率性的,受到噪声的影响,并由我们的预期和偏见塑造。

在贝叶斯视角下,大脑维护着一个生成式模型 p(x,z),其中x是感官观测,z是隐含的解释这些观测的隐变量。推断后验分布 p(z∣x) 是生成式模型的核心挑战。

海尔姆霍兹机器使用神经网络直接从数据中学习近似后验 q(x|z),并尽量使其逼近真实的 p(z∣x)。它包含识别网络(编码器)和生成网络(解码器)两个方向:

识别网络 z ← x: q(z|x)
生成网络 z→ x: p(x|z)

二、变分自编码器

2013年,变分自编码器(VAE) 出现,其设计理念与海尔姆霍兹机器类似。识别网络学习近似后验密度 q(z|x),使其尽可能逼近真实后验 p(z|x)。

它的数学表达十分优雅,将随机性与结构明确分离:首先从标准正态分布N(0,1)中采样,然后用学习到的均值μ和标准差σ变换样本,以生成复杂分布中的样本。就像《圣经·创世纪》描述的,起初世界是空虚混沌,然后有了光。VAE通过无形中找到有形,从噪声中发现模式。

三、规范化流

规范化流(NF)可以看作是“给变分自编码器打类固醇”。它通过一系列可逆变换,逐步将简单分布变形为复杂分布。

NF的优雅之处在于动态塑造分布本身。它跟踪变换的雅可比行列式,给出变换导致的体积变化,以保证整个潜在空间连贯变形。就像VAE一样,最初的“糊状物”被塑造成有形的模式。

四、弥散模型

最近几年最成功的生成模型之一是弥散模型。虽然它们的基本架构不同,但概念上仍与VAE和NF相关。

弥散模型将生成过程分解为若干步骤:在每一步,训练集样本被噪声扭曲。模型的目标是学习去除样本中的噪声。这里,噪声再次扮演关键角色。

在训练过程中,逐步向训练集数据中添加噪声。例如对于图像,模型要么学习去除极轻微的噪声并抛光最后的细节,要么从一个模糊的形状中 additionalProperties 细节。生成过程则恰好相反。

虽然识别过程没有被直接建模,但添加噪声以及监控噪声应该如何减少的过程,可以看作一种识别形式,初始噪声样本即对应p(z0)中的随机采样。这与VAE和NF的思路不谋而合。

五、生成式对抗网络

生成式对抗网络(GAN)可能是近十年最流行的生成模型之一。它们抛弃了海尔姆霍兹机器的双网络结构,直接舍弃识别过程,只训练生成网络(判别器),并将其生成的样本与训练集进行比较。

生成网络被训练以产生能欺骗判别器的数据。判别器则被训练以区分真实和假的样本。二者的竞争推动模型不断进步。GAN的优雅之处在于捕捉数据背后的分布,而不需要直接建模识别过程,这在许多应用中是十分有用的。

六、Transformer与大型语言模型

最后,绝对不能错过Transformer架构。它已彻底改变了文本生成的模式。

几乎所有大型语言模型都是Transformer架构的变体,使用了自注意力机制。这种架构尤其适用于文本,能学习输入序列中的复杂关系。

在掩蔽语言建模中,Transformer给定部分遮蔽的序列,训练识别被遮蔽的词语。这有点像VAE中的识别,遮蔽词可以看作噪声化输入。缺失的词被推断出来,因为Transformer学习到了输入数据的概率分布 p(x),并可理解最可能的单词。

从生成角度看,Transformer基于前文建模每个潜在单词或短语的概率,通常受提示的制约。这表达了随处可见的条件概率分布 p(x|z)。

通过温度超参数可以控制不同单词的选择概率。想要创造性还是确定性的响应,“噪声”的水平可以有效地用这个参数控制。就像热力学中的温度影响熵和不确定性,控制词汇选择的随机性。

综上所述,噪声在所有生成模型中都发挥关键作用。生成建模是将无形的噪声赋予结构。近年来,许多生成模型层出不穷,但它们都在平衡噪声与结构,从数据中发现模式。

这些“梦想家”正在学习使用我们熟悉的语言,学习近似我们所关心的一切事物的概率分布 p(x)。通过交易噪声与结构,它们在此分布内外发现无尽新模式,其创造力亦可激发我们自己的创造力。让我们拭目以待这场噪声与结构的舞蹈尚会开启怎样的可能性!

相关阅读  手把手教你如何注册ChatGPT,图文教程

Categorized in: