现代神经网络实现：从误差评估到代价函数

JavaJuice约 1221 字大约 4 分钟

现代神经网络实现：从误差评估到代价函数

一、罗森布拉特感知器的核心思想

核心精髓：参数的自适应调整是人工神经元的关键。
局限性：虽然启发了现代神经网络，但其本身已不常用。

二、预测误差的评估方法

从罗森布拉特感知器的参数调整出发，引出如何科学地评估预测误差。

1. 误差评估方法的演进

差值（误差）：预测值 - 真实值 (y_pred - y_true)。
- 问题：误差有正负，在求和时会相互抵消，无法真实反映总体误差。
绝对差误差：使用差值的绝对值 (|y_pred - y_true|)。
- 优点：解决了正负抵消问题。
- 缺点：数学和编程处理上不够方便（不可导）。
平方误差：将差值进行平方 ((y_pred - y_true)^2)。
- 优点：
  1. 消除了正负号的影响。
  2. 数学性质良好（处处可导），便于后续优化。
- 结论：平方误差是更优的误差评估方式。

2. 从单个样本到整体样本

单个样本的误差-参数关系：对于任意一个样本点 (x_i, y_i)，预测函数 y_pred = w * x_i，其平方误差 E_i = (w*x_i - y_i)^2 与参数 w 的关系是一个开口向上的抛物线（一元二次函数）。
整体样本的误差-参数关系：对于一组包含 M 个样本的数据，整体的预测误差是每个样本误差的平均值。
- 公式：E = (1/M) * Σ_{i=1}^{M} (w*x_i - y_i)^2
- 术语：此误差被称为均方误差。
- 核心结论：无论样本数量 M 是多少，均方误差 E 与参数 w 的关系始终是一个开口向上的抛物线。这个函数揭示了参数 w 的取值对模型整体预测性能的影响。

三、代价函数与回归分析

1. 视角的转换：从预测函数到代价函数

预测函数（目标）：y = w * x
- w: 参数（待确定）
- x: 自变量（输入）
- y: 因变量（输出）
- 目标：找到一个好的 w，使函数能准确预测。
代价函数（工具）：E(w) = (1/M) * Σ (w*x_i - y_i)^2
- x_i, y_i: 来自环境的已知观测数据（成为函数的已知参数）。
- w: 自变量（我们研究的目标）。
- E: 因变量（代价/误差）。
- 作用：作为分析并改进预测函数的辅助工具，用于评估不同 w 取值下的预测误差。

2. 与统计学的联系

回归分析：通过大量观测数据来评估和确定函数关系。
最小二乘法：评估的标准是使（均）方误差最小化，这正是我们构建代价函数并寻求其最小值的过程。

四、寻找最优参数：最小化代价函数

代价函数是一个开口向上的抛物线，其最低点对应的 w 值就是能使预测误差最小的最优参数。

1. 方法一：正规方程法

原理：直接利用抛物线顶点坐标公式求解最低点。
公式推导：
- 单个样本：w_min = y0 / x0
- 多个样本（一般情况）：w_min = (Σ (x_i * y_i)) / (Σ (x_i * x_i))
优缺点：
- 优点：在样本量少时，直接、准确。
- 缺点：当面对海量数据（样本量大、特征维度高）时，计算量和存储需求巨大，效率低下。

2. 方法二：梯度下降法（预告）

一种更常用、适用于大数据和复杂模型的迭代优化方法，将在后续课程中详细介绍。

五、编程实验验证

通过代码直观验证了以上理论：

绘制代价函数：对于一组豆豆数据，改变参数 w，计算对应的均方误差 E，并绘制 E-w 关系图，结果确为开口向上的抛物线。
计算最优参数：使用顶点公式（正规方程）计算出抛物线最低点对应的 w_min。
验证拟合效果：将 w_min 代入预测函数，绘图显示其完美拟合了样本数据。

总结

本节课系统性地阐述了现代神经网络中参数学习的核心思想：

引入均方误差作为衡量模型预测好坏的客观标准，并据此构建了代价函数。
代价函数建立了模型参数与预测性能之间的明确关系（抛物线），寻找最优参数等价于寻找代价函数的最小值。
介绍了一种直接求解最小值的方法——正规方程，并分析了其适用场景与局限性，为引入更通用的梯度下降法做好了铺垫。
通过编程实验，完整地演示了从定义误差、构建代价函数到求解最优参数并验证的整个流程。