从感知机到神经网络:深度学习的起源
摘要深度学习不是凭空出现的。它的根可以追溯到 1958 年一个叫感知机的简单算法。这篇文章沿着历史的线索从感知机到多层神经网络讲清楚深度学习的核心思想——以及为什么深才是关键。一、一切始于一个神经元生物神经元给我们的启发人脑约有 860 亿个神经元每个神经元通过树突接收信号在细胞体中处理然后通过轴突把信号传递给下一个神经元。1943 年 McCulloch 和 Pitts 提出了一个大胆的想法能不能用一个简单的数学函数模拟神经元的行为生物神经元 人工神经元M-P 模型 树突接收信号 输入 x₁, x₂, ..., xₙ ↓ ↓ 细胞体加权求和阈值判断 加权求和 Σ(wᵢxᵢ) b ↓ ↓ 轴突输出信号 激活函数 f(Σ) → 输出 y这个想法就是所有现代神经网络的最底层起点。二、感知机第一个能学习的神经元1958 年弗兰克·罗森布拉特的里程碑1958 年心理学家弗兰克·罗森布拉特Frank Rosenblatt在 M-P 模型的基础上提出了感知机Perceptron——第一个能自动从数据中学习的算法。感知机的数学形式非常简单y sign(w₁x₁ w₂x₂ ... wₙxₙ b) 其中 xᵢ 输入特征 wᵢ 权重可学习 b 偏置 sign() 阶跃函数输出 1 或 -1为什么它重要因为权重 wᵢ 不是人手动设定的而是通过数据自动学习的。感知机学习算法感知机的学习过程极其简单优雅1. 随机初始化权重 w₁, w₂, ..., wₙ 和偏置 b 2. 对每个训练样本 (x, y_true) a. 计算预测值 y_pred sign(Σ(wᵢxᵢ) b) b. 如果预测错误 wᵢ wᵢ η × (y_true - y_pred) × xᵢ b b η × (y_true - y_pred) η 是学习率控制每次调整的幅度 3. 重复步骤 2直到所有样本都分类正确核心思想预测错了就调整权重往正确的方向挪一点点。不断地试错、调整、再试错——这就是机器学习最原始的形态。感知机能力的边界XOR 问题1969 年马文·明斯基Marvin Minsky在《感知机》一书中指出了感知机的致命局限感知机只能解决线性可分的问题。什么意思来看一张图线性可分感知机能解决 线性不可分感知机解决不了 ○ ○ ○ ○ / ╲ ╱ 分类面 ╲ ╱ / ╱ ╲ × × ╱ ╲ × × AND与门✅ XOR异或门❌XOR异或问题是最经典的例子(0,0) → 0(0,1) → 1(1,0) → 1(1,1) → 0你无法用一条直线把四个点分成两类。单层感知机对此无能为力。这个发现直接导致了 AI 的第一次冬天——人们对神经网络的热情陷入了低谷。三、多层神经网络的诞生解决方案再加一层解决问题的思路其实很简单一条直线不行那就用多条直线。XOR 问题的解法 第一步用一条线区分 (0,0) vs 其他 第二步用另一条线区分 (1,1) vs 其他 第三步把两个结果合并 本质上就是第一层 → 特征变换 → 第二层 → 最终分类这就是多层感知机MLP, Multi-Layer Perceptron的核心思想输入层Input Layer 隐藏层Hidden Layer 输出层Output Layer x₁ ────── h₁ ──── ╲ x₂ ────── h₂ ─────── y ╱ x₃ ────── h₃ ────输入层接收原始数据隐藏层数据在这里被变换成更高层次的特征表示输出层基于变换后的特征做出最终判断为什么多层更强大单层感知机只能做线性分类。多层神经网络可以做到非线性分类——因为隐藏层把原始输入映射到了一个新的特征空间在这个新空间中数据变得线性可分。可以这样理解单层网络给你原始数据直接做判断 → 粗放、能力有限多层网络先让数据经过一次理解和提炼再做判断 → 精细、能力强四、深意味着什么深度 层次化的特征学习当隐藏层从一层变成两层、三层、甚至上百层时一个奇妙的现象出现了网络自动学会了层次化的特征表示。以图像识别为例输入一张人脸照片像素点 ↓ 第一层隐藏层检测边缘和纹理横线、竖线、色块 ↓ 第二层隐藏层组合边缘为部件眼睛、鼻子、嘴巴 ↓ 第三层隐藏层组合部件为整体人脸轮廓 ↓ 输出层判断是谁的脸每一层都建立在上一层的基础上学习更抽象、更高级的特征。这就是深度学习中深度二字的真正含义——不是指更聪明而是指有更多层次的特征抽象。深度 vs 宽度维度含义效果深度层数多纵向层次化抽象能力强能学习复杂概念宽度每层神经元多横向记忆容量大但容易过拟合研究发现在一定范围内增加深度比增加宽度更有效。这就是为什么现代网络越来越深从几层到几百层而不是越来越宽。五、激活函数给神经网络注入非线性如果没有激活函数多层神经网络就和单层没有区别——因为多个线性变换叠加仍然是线性变换。激活函数的作用是引入非线性让网络能够学习复杂的模式。常见的激活函数函数公式特点适用场景Sigmoidf(x) 1/(1e⁻ˣ)输出范围 (0,1)平滑二分类输出层Tanhf(x) (eˣ-e⁻ˣ)/(eˣe⁻ˣ)输出范围 (-1,1)零中心RNN、全连接层ReLUf(x) max(0, x)计算极快稀疏激活现代深度学习默认选择LeakyReLUf(x) max(0.01x, x)缓解 ReLU 死亡问题深层网络GELU近似 x·Φ(x)2024-2026 年最流行Transformer、大模型ReLU 为什么成了默认选择2012 年 AlexNet 之后ReLU 迅速成为深度学习社区的首选激活函数原因很简单Sigmoid 的问题 - 大数值输入→输出接近1→梯度≈0→梯度消失→无法学习 ❌ ReLU 的优点 - x 0 时梯度恒为 1 → 梯度不衰减 → 深层也能学 ✅ - 计算只需比较大小 → 极快 ✅ - 输出有大量零值 → 稀疏激活 → 高效 ✅六、从单层到深度能力对比网络结构能力经典案例局限性单层感知机线性分类AND/OR 门不能解决 XOR单隐藏层 MLP通用函数近似任意连续函数XOR、简单分类复杂任务需要大量神经元深度 MLP3层层次化特征学习手写数字识别参数多需要大量数据深度 CNN空间特征提取图像分类、目标检测主要用于视觉数据深度 Transformer序列建模 全局注意力大语言模型、多模态计算量大万能逼近定理1989 年Cybenko 证明了万能逼近定理Universal Approximation Theorem一个足够宽的单隐藏层神经网络可以以任意精度逼近任意连续函数。这个定理的意义神经网络在理论上可以学习任何东西。但实际中有一个关键问题——足够宽可能意味着需要数万亿个神经元这在计算上不可行。深度网络用更少但更深的层达到了同样甚至更好的效果效率高得多。七、总结关键节点年份意义M-P 神经元模型1943用数学模拟神经元的首次尝试感知机1958第一个能学习的算法开启神经网络时代XOR 问题1969暴露了单层网络的局限导致 AI 冬天多层感知机 反向传播1986突破 XOR 局限神经网络重获新生深度学习ReLU GPU2012深层网络变得可训练引爆现代 AI核心一句话深度学习通过多层非线性变换实现了自动的、层次化的特征学习。我们不需要手动告诉模型什么是边缘、什么是眼睛——让网络自己在数据中学。下一篇文章我们来看看神经网络到底是怎么学习的——反向传播与梯度下降这是神经网络训练的核心引擎。