大语言模型的数学底色:从最小二乘法到万能拟合定理
剥开AI玄幻的术语外衣,从经典的线性模型出发,重新审视训练数据、模型、损失函数与优化方法这四大基石,探寻大型语言模型与傅里叶展开的深层共鸣。
最近大模型(LLM)的发展如火如荼,涌现能力、注意力机制、思维链等新概念层出不穷,仿佛计算机真正拥有了自主的灵魂。
但如果退后一步,用纯古典数学的视角来拆解它,我们会获得一个非常有趣且亲切的洞察:剥开这层复杂的架构外衣,大型语言模型的本质,其实就是一个极其庞大且特殊的“最小二乘法”。
为了看清这一点,我们不妨先回到一切统计学习的起点——线性模型。
1. 经典回顾:高维空间的最小二乘解
在传统的线性回归中,我们面对的是一个高维模型。给定由
为了衡量这种“逼近”的程度,我们通常使用均方误差(MSE)作为损失函数:
得益于这个损失函数的完美凸性,我们可以直接进行求导,并令导数等于零,从而得到极其优美的最小二乘法解析解:
从这个质朴的方程中,我们可以抽象出决定机器学习生死的四个普适对象:训练数据(
非常奇妙的是,当我们把这四个对象平移到当代最前沿的大语言模型上时,会发现概念的对应关系依然严丝合缝。
2. 映射与演进:当四个对象遇见大模型
训练数据:从“矩阵映射”到“自回归预测”
- 线性模型:输入是明确的结构化数据特征
,输出是明确的连续值 。 - LLM:文本本身是非结构化的,但这并不能阻挡我们构造“点对”。大模型采用的是自回归机制(Autoregressive)。假设一句话包含字序列
,对于任意位置 ,它的前缀 就是我们的输入 ,而下一个词 就是目标输出 。本质上,大模型依然是在完成 的数据映射关系,只不过它的“数据”是全人类的语料库。
模型:从“线性超平面”到“非线性暗箱”
- 线性模型:模型结构极其纯粹,是一组固定的一阶线性组合
。 - LLM:人类语言的高度抽象性,是无法用一次方程刻画的。所以,线性模型中的那个
,被替换成了由 Transformer 架构组成的深度神经网络 。这里面不仅包含庞大的矩阵乘法(线性),还加入了诸如 ReLU、GeLU 等激活函数(非线性)。千亿级的参数量 ,把原本平直的超平面“揉捏、折叠”成了足以包裹任何复杂逻辑的高维流形。
损失函数:从“欧氏距离”到“概率散度”
-
线性模型:使用均方误差(MSE)计算预测点和真实点之间的直线距离。
-
LLM:预测下一个词,其实是在庞大的词表中输出一个概率分布。这时候再量物理距离就不合适了,所以现代深度学习普遍采用交叉熵损失(Cross-Entropy Loss):
这在信息论中度量的是预测概率分布与真实概率分布之间的差异。尽管公式长变了,但其本质与 MSE 如出一辙——都在无情地惩罚“预测与现实之间的误差”。
训练方法:从“一维解析解”到“随机梯度下降”
-
线性模型:因为误差截面是一个纯粹的“碗”,我们可以直接用代数运算
一步到达谷底。 -
LLM:模型的参数太多,损失面(Loss Landscape)变成了一座崇山峻岭,根本写不出解析解公式。所以我们采用了数值近似的方法:**随机梯度下降(SGD)**及其变体(如 Adam 优化器)。这就像是把我们蒙上眼睛放在高山上,每次只用脚探测一下周围最陡的下坡方向,然后跨出一步:
通过这种一点点摸索的方式,我们最终用极致的数字暴力(算力)平替了解析解。
3. 一次思想的升华:从三角函数到万能拟合
分析到这里,或许你心里还会有一个疑问:哪怕是大模型,底层也不过是一堆加法和乘法,连加连乘的东西,凭什么能够理解语义,甚至涌现出复杂的逻辑拟合能力?
这其实触及到了数学中最迷人的部分。我们不妨在上面那个经典的线性模型中做一个小小的“特例拓展”。
如果我们的输入特征不再是简单的一阶
看到这个公式,学过微积分的朋友一定已经瞪大了眼睛——这正是大名鼎鼎的傅里叶展开(Fourier Expansion)!
古典数学告诉我们:只要给予足够丰富的三角函数基底(高频项),哪怕这只是一个简单的权重线性组合(一阶加法),我们也能以极高的精度,完美拟合出任何不规则的、连续的周期函数。
这就引出了深度学习赖以生存的数学灵魂——万能拟合定理(Universal Approximation Theorem)。
在傅里叶展开中,我们是用人为规定的“三角函数”作为基底去拼接世界;而在包含非线性激活函数的大语言模型中,连“基底”都不再需要人为规定了。这千亿个参数在随机梯度下降的雕琢下,通过自我的线性组合加上非线性扭曲,自动学习并组合出了这个宇宙中最适合拟合人类语言的未知基底。
所以,当我们回望那些震撼人心的 AI 突破,不妨微微一笑。在那一层层神乎其神的名词与惊人的参数量之下,端坐着的依然是那位我们非常熟悉的老朋友——它在通过收集数据、设定模型、定义误差和寻找极值,默默地做着一场最华丽的“最小二乘法”。