现代神经网络实现:从误差评估到代价函数
约 1221 字大约 4 分钟
现代神经网络实现:从误差评估到代价函数
一、罗森布拉特感知器的核心思想
- 核心精髓:参数的自适应调整是人工神经元的关键。
- 局限性:虽然启发了现代神经网络,但其本身已不常用。
二、预测误差的评估方法
从罗森布拉特感知器的参数调整出发,引出如何科学地评估预测误差。
1. 误差评估方法的演进
- 差值(误差):预测值 - 真实值 (
y_pred - y_true)。- 问题:误差有正负,在求和时会相互抵消,无法真实反映总体误差。
- 绝对差误差:使用差值的绝对值 (
|y_pred - y_true|)。- 优点:解决了正负抵消问题。
- 缺点:数学和编程处理上不够方便(不可导)。
- 平方误差:将差值进行平方 (
(y_pred - y_true)^2)。- 优点:
- 消除了正负号的影响。
- 数学性质良好(处处可导),便于后续优化。
- 结论:平方误差是更优的误差评估方式。
- 优点:
2. 从单个样本到整体样本
- 单个样本的误差-参数关系:对于任意一个样本点
(x_i, y_i),预测函数y_pred = w * x_i,其平方误差E_i = (w*x_i - y_i)^2与参数w的关系是一个开口向上的抛物线(一元二次函数)。 - 整体样本的误差-参数关系:对于一组包含
M个样本的数据,整体的预测误差是每个样本误差的平均值。- 公式:
E = (1/M) * Σ_{i=1}^{M} (w*x_i - y_i)^2 - 术语:此误差被称为均方误差。
- 核心结论:无论样本数量
M是多少,均方误差E与参数w的关系始终是一个开口向上的抛物线。这个函数揭示了参数w的取值对模型整体预测性能的影响。
- 公式:
三、代价函数与回归分析
1. 视角的转换:从预测函数到代价函数
- 预测函数(目标):
y = w * xw: 参数(待确定)x: 自变量(输入)y: 因变量(输出)- 目标:找到一个好的
w,使函数能准确预测。
- 代价函数(工具):
E(w) = (1/M) * Σ (w*x_i - y_i)^2x_i, y_i: 来自环境的已知观测数据(成为函数的已知参数)。w: 自变量(我们研究的目标)。E: 因变量(代价/误差)。- 作用:作为分析并改进预测函数的辅助工具,用于评估不同
w取值下的预测误差。
2. 与统计学的联系
- 回归分析:通过大量观测数据来评估和确定函数关系。
- 最小二乘法:评估的标准是使(均)方误差最小化,这正是我们构建代价函数并寻求其最小值的过程。
四、寻找最优参数:最小化代价函数
代价函数是一个开口向上的抛物线,其最低点对应的 w 值就是能使预测误差最小的最优参数。
1. 方法一:正规方程法
- 原理:直接利用抛物线顶点坐标公式求解最低点。
- 公式推导:
- 单个样本:
w_min = y0 / x0 - 多个样本(一般情况):
w_min = (Σ (x_i * y_i)) / (Σ (x_i * x_i))
- 单个样本:
- 优缺点:
- 优点:在样本量少时,直接、准确。
- 缺点:当面对海量数据(样本量大、特征维度高)时,计算量和存储需求巨大,效率低下。
2. 方法二:梯度下降法(预告)
- 一种更常用、适用于大数据和复杂模型的迭代优化方法,将在后续课程中详细介绍。
五、编程实验验证
通过代码直观验证了以上理论:
- 绘制代价函数:对于一组豆豆数据,改变参数
w,计算对应的均方误差E,并绘制E-w关系图,结果确为开口向上的抛物线。 - 计算最优参数:使用顶点公式(正规方程)计算出抛物线最低点对应的
w_min。 - 验证拟合效果:将
w_min代入预测函数,绘图显示其完美拟合了样本数据。
总结
本节课系统性地阐述了现代神经网络中参数学习的核心思想:
- 引入均方误差作为衡量模型预测好坏的客观标准,并据此构建了代价函数。
- 代价函数建立了模型参数与预测性能之间的明确关系(抛物线),寻找最优参数等价于寻找代价函数的最小值。
- 介绍了一种直接求解最小值的方法——正规方程,并分析了其适用场景与局限性,为引入更通用的梯度下降法做好了铺垫。
- 通过编程实验,完整地演示了从定义误差、构建代价函数到求解最优参数并验证的整个流程。
