课程回顾与扩展:神经网络与人工智能导论
约 1488 字大约 5 分钟
课程回顾与扩展:神经网络与人工智能导论
一、 核心概念演进回顾
1.1 启蒙与基础模型
- MCP神经元模型 与 罗森布拉特感知器:人工智能启蒙阶段的代表性模型。
- 线性回归:引入了 代价函数(Cost Function) 的概念。
- 梯度下降算法(Gradient Descent):
- 核心思想:通过迭代训练,使代价函数的误差逐渐向最低点(最优点)移动。
- 优势:与正规方程法相比,梯度下降法不会一次性占用大量计算和存储资源,是一种 “以时间换空间” 的思想,适用于海量数据。
1.2 梯度下降算法的改进
为了提升训练效率,在传统梯度下降基础上衍生出多种改进算法:
- 基于动量的梯度下降:引入物理中的“动量”概念,模拟小球下坡运动。
- 自适应学习率算法:能够根据学习过程自我调节学习率。
- AdaGrad
- RMSprop
- Adam算法:同时结合了 动量 和 自适应学习率 思想。
1.3 神经网络的核心机制
- 反向传播(Backpropagation):
- 工作模式:数据前向传播进行预测,误差代价反向传播调整权重和偏置参数。
- 这是现代神经网络工作的核心雏形。
- 通过 链式法则 实现误差在多层级网络中的有效传播。
- 激活函数(Activation Function):
- 核心作用:引入非线性,使神经网络摆脱线性系统约束,从而获得解决复杂问题的能力,被称为神经网络的“灵魂”。
- 常用类型:
- Sigmoid:通常在输出层用作二分类问题的预测输出。
- ReLU:在多层神经网络的隐藏层中广泛采用。
1.4 深度学习框架与网络
- Keras框架:简化了神经网络的构建过程。
- 经典网络结构简介:
- 卷积神经网络(CNN)
- 循环神经网络(RNN)
二、 人工智能技术体系梳理
2.1 三者关系:人工智能 > 机器学习 > 深度学习
- 人工智能(AI):终极目标是让机器产生类人智能。一切试图实现该目标的技术都属于AI范畴。
- 机器学习(ML):AI的一个子集。核心是让机器从数据中自动学习规则,而非人工录入。
- 深度学习(DL):机器学习的一个分支。其灵感源于人脑神经元连接(连接主义),通过深层神经网络学习数据特征。
2.2 人工智能的主要流派
- 符号主义
- 核心:人工总结规则,构建专家系统(如 if-else 规则堆砌)。
- 现代应用:知识图谱在智能问答等系统中发挥重要作用。
- 特点:依赖大量人工,机器无法自主学习。
- 连接主义
- 核心:仿生人脑神经元连接,通过大量单元互联学习(深度神经网络即属于此派)。
- 特点:是对大脑的“仿生”而非“复刻”。
- 行为主义
- 核心:智能体通过与环境交互(采取行动、改变状态、获得奖励)来学习策略。
- 代表技术:强化学习(Reinforcement Learning)。
- 应用与发展:从AlphaGo到游戏AI(如腾讯“觉悟”),常与深度学习结合形成 深度强化学习。
2.3 对当前技术格局的看法
- 深度学习因其在算力和数据充足的背景下表现出的显著优势,目前占据主流。
- 但AI/ML各流派均有其独特优势与适用场景,“深度学习全面取代其他技术”的说法并不可取。例如,商用QA系统更看重答案的准确性与正确性,因此常采用符号主义的知识图谱技术。
三、 后续学习路径建议
3.1 知识体系分层
类比其他技术领域(如Java),可将深度学习知识分为两层:
- 底层实现:梯度下降、反向传播、CNN/RNN基本原理等构成现代神经网络的基石。
- 上层应用(经典模型):在发展中经实践检验有效的网络模型,如ResNet、GoogleNet、LSTM、GRU等。它们是解决常见任务(图像识别、NLP等)的首选工具。
3.2 学习建议
- 目标:解决具体任务
- 首要路径:直接学习和应用 经典的网络模型。
- 方法:利用网络博客、解读文章和配套代码(如Keras实现)进行学习,这比直接阅读原论文门槛更低(例:著名博客《Understanding LSTM》)。
- 目标:深入研究或跟进前沿
- 必须路径:阅读原始学术论文。
- 挑战:论文侧重思想、公式和效果图表,通常不附源码,推导细节较少。
- 能力基础:需要对机器学习底层实现(包括数学原理)有足够了解。
- 提升方法:通过大量阅读培养领域直觉,筛选优质论文。
- 类比说明:
- 如同使用Java开发应用,未必需要深入理解JVM底层,但可以写出好程序。
- 如同从事操作系统研究,则必须深入计算机底层。
总结
本课程从神经元模型、梯度下降等基础概念出发,梳理了神经网络的核心工作机制(反向传播、激活函数),并借助Keras框架介绍了CNN/RNN。课程进一步廓清了人工智能、机器学习与深度学习的关系,指出符号主义、连接主义和行为主义三大流派各有千秋。最后,为不同学习目标(应用 vs 研究)的同学提供了清晰的学习路径建议:应用者应掌握经典模型,研究者需深耕论文与底层原理。人工智能领域仍在高速发展,鼓励大家在理解基本原理后,于各自领域继续探索和实践。
