大语言模型的数学底色：从最小二乘法到万能拟合定理

最近大模型（LLM）的发展如火如荼，涌现能力、注意力机制、思维链等新概念层出不穷，仿佛计算机真正拥有了自主的灵魂。

但如果退后一步，用纯古典数学的视角来拆解它，我们会获得一个非常有趣且亲切的洞察：剥开这层复杂的架构外衣，大型语言模型的本质，其实就是一个极其庞大且特殊的“最小二乘法”。

为了看清这一点，我们不妨先回到一切统计学习的起点——线性模型。

在传统的线性回归中，我们面对的是一个高维模型。给定由个样本、每个包含个特征组成的设计矩阵，以及目标向量。我们希望找到一个权重向量，使得预测值尽可能逼近真实值。

为了衡量这种“逼近”的程度，我们通常使用均方误差（MSE）作为损失函数：

得益于这个损失函数的完美凸性，我们可以直接进行求导，并令导数等于零，从而得到极其优美的最小二乘法解析解：

从这个质朴的方程中，我们可以抽象出决定机器学习生死的四个普适对象：训练数据（与）、模型结构（）、损失函数（）以及训练方法（解析求解）。

非常奇妙的是，当我们把这四个对象平移到当代最前沿的大语言模型上时，会发现概念的对应关系依然严丝合缝。

线性模型：输入是明确的结构化数据特征，输出是明确的连续值。
LLM：文本本身是非结构化的，但这并不能阻挡我们构造“点对”。大模型采用的是自回归机制（Autoregressive）。假设一句话包含字序列，对于任意位置，它的前缀就是我们的输入，而下一个词就是目标输出。本质上，大模型依然是在完成的数据映射关系，只不过它的“数据”是全人类的语料库。

线性模型：模型结构极其纯粹，是一组固定的一阶线性组合。
LLM：人类语言的高度抽象性，是无法用一次方程刻画的。所以，线性模型中的那个，被替换成了由 Transformer 架构组成的深度神经网络。这里面不仅包含庞大的矩阵乘法（线性），还加入了诸如 ReLU、GeLU 等激活函数（非线性）。千亿级的参数量，把原本平直的超平面“揉捏、折叠”成了足以包裹任何复杂逻辑的高维流形。

线性模型：使用均方误差（MSE）计算预测点和真实点之间的直线距离。
LLM：预测下一个词，其实是在庞大的词表中输出一个概率分布。这时候再量物理距离就不合适了，所以现代深度学习普遍采用交叉熵损失（Cross-Entropy Loss）：

这在信息论中度量的是预测概率分布与真实概率分布之间的差异。尽管公式长变了，但其本质与 MSE 如出一辙——都在无情地惩罚“预测与现实之间的误差”。

线性模型：因为误差截面是一个纯粹的“碗”，我们可以直接用代数运算一步到达谷底。
LLM：模型的参数太多，损失面（Loss Landscape）变成了一座崇山峻岭，根本写不出解析解公式。所以我们采用了数值近似的方法：**随机梯度下降（SGD）**及其变体（如 Adam 优化器）。这就像是把我们蒙上眼睛放在高山上，每次只用脚探测一下周围最陡的下坡方向，然后跨出一步：

通过这种一点点摸索的方式，我们最终用极致的数字暴力（算力）平替了解析解。

分析到这里，或许你心里还会有一个疑问：哪怕是大模型，底层也不过是一堆加法和乘法，连加连乘的东西，凭什么能够理解语义，甚至涌现出复杂的逻辑拟合能力？

这其实触及到了数学中最迷人的部分。我们不妨在上面那个经典的线性模型中做一个小小的“特例拓展”。

如果我们的输入特征不再是简单的一阶，而是人为地用三角函数给它包装一下，把输入投影成一个新序列呢？此时，我们的线性模型会变成这样：

看到这个公式，学过微积分的朋友一定已经瞪大了眼睛——这正是大名鼎鼎的傅里叶展开（Fourier Expansion）！

古典数学告诉我们：只要给予足够丰富的三角函数基底（高频项），哪怕这只是一个简单的权重线性组合（一阶加法），我们也能以极高的精度，完美拟合出任何不规则的、连续的周期函数。

这就引出了深度学习赖以生存的数学灵魂——万能拟合定理（Universal Approximation Theorem）。

在傅里叶展开中，我们是用人为规定的“三角函数”作为基底去拼接世界；而在包含非线性激活函数的大语言模型中，连“基底”都不再需要人为规定了。这千亿个参数在随机梯度下降的雕琢下，通过自我的线性组合加上非线性扭曲，自动学习并组合出了这个宇宙中最适合拟合人类语言的未知基底。

所以，当我们回望那些震撼人心的 AI 突破，不妨微微一笑。在那一层层神乎其神的名词与惊人的参数量之下，端坐着的依然是那位我们非常熟悉的老朋友——它在通过收集数据、设定模型、定义误差和寻找极值，默默地做着一场最华丽的“最小二乘法”。

■