在过去的三周，我们学完了《深度学习专项》的第二门课《改进深度神经网络：调整超参数、正则化和优化》。这些知识十分零散，让我们用点技能点的方式回顾一下这些知识，同时评测一下自己的学习情况。复习完了后，我们来看看下一门课的学习内容。

第二阶段回顾

在本节中，你需要记下两个数字：技能点数和觉醒技能点数。

技能点获取规则：必须先点完基础的知识，再点进阶的知识。同级知识之间没有先后限制。同时，某些知识还有额外的前置条件。

数据集划分

浅尝（+1点）

数据集可以分成训练集、开发集、测试集三种。
数据量小时按比例划分，数据量大时只需要选少量数据用作开发集、测试集。
开发集和测试集的区别：开发模型时不能偷看测试集的评估结果。

偏差与方差

浅尝（+1点）

理解偏差和方差的基本意义。
能用二维点集分类的例子描述偏差问题和方差问题。
在知道了模型在训练集、开发集上的误差后，能够诊断模型存在的问题。

精通 - 解决偏差与方差问题（+1点）

前置技能点：正则化

面对偏差问题，常见的解法是使用的更复杂的模型提升参数量，并延长训练时间。
面对方差问题，常见的解法是增加数据（数量和质量）和正则化。
改变模型结构往往能同时解决这两个问题。

正则化

浅尝（+1点）

前置技能点：了解方差

正则化的作用：缓解过拟合。
正则化的通用思想：防止网络过分依赖少量的某些参数。

入门 - 添加正则化项（+1点）

在损失函数新加一项：

$J(w, b) = \frac{1}{m}\Sigma_{i=1}^{m}L(\hat{y}, y) + \frac{\lambda}{2m}||w^2||_2$

梯度下降时稍微修改一下参数的更新方法：

$w :=(1-\frac{\alpha\lambda}{m})w-\alpha dw$

精通 - dropout（+1点）

dropout的思想：训练时随机丢掉某些激活输出。
dropout的实现：由随机数矩阵和失活概率算出一个bool矩阵，以此bool矩阵为mask与激活输出相乘。

博闻 - 其他正则化方法（+1点）

数据增强。
提前停止（early stopping)。
……

若能够实现正则化项、dropout、提前停止，则获得1觉醒点。

参数初始化

浅尝（+0点）

知道参数要用比较小的值初始化。

入门（+1点）

了解梯度数值异常的原因：中间计算结果随网络层数指数级变化。
参数初始化可以令数据的方差尽可能靠近1，防止梯度异常问题。

精通（+1点）

知道如何添加参数初始化系数。
了解常见的初始化系数的选择方法，比如He、Xavier。

博闻（+1点）

看参数初始化的原论文，深入理解参数初始化的原理。

梯度检查

精通（+1点）

知道梯度检查的数学公式。
实现简单模型的梯度检查。

博闻（+1点）

会用编程框架里的梯度检查以调试大模型里的梯度。

mini-batch

入门（+1点）

知道mini-batch是怎么根据batchsize划分训练集的。
能够实现mini-batch。

精通（+2点）

mini-batch的加速原理：增加参数更新次数，同时不影响向量化运算的性能。
在实验中体会不同batchsize的效果，能灵活选择batchsize。

指数加权移动平均

入门（+1点）

移动平均数的作用。
指数加权移动平均的公式：$v_i=\beta v_{i-1} + (1 - \beta)t_i$。

精通（+1点）

大概明白为什么使用指数加权移动平均而不使用普通的移动平均。
偏差矫正的原理和实现。

高级梯度下降算法

前置知识：指数加权移动平均

精通 - Momentum（+1点）

大致理解Momentum的思想。
掌握公式，能用代码实现，知道一般情况下超参数$\beta=0.9$。

精通 - RMSProp（+0点）

掌握公式，能用代码实现，知道有哪些超参数。

精通 - Adam（+2点）

前置知识：Momentum, RMSProp

掌握公式，能用代码实现，知道一般情况下超参数$\beta_1=0.9, \beta_2=0.999, \epsilon=10^{-8}$，基本不需要调参。

博闻（+1点）

阅读经典优化器的论文。
了解各优化器的由来，能直观理解各种优化算法的意义。

实现Adam后，获得1觉醒点。

学习率衰减

精通（+1点）

知道学习率衰减的意义。
了解几个常见的学习率衰减公式。

尝试使用Mini-batch、高级优化算法、学习率衰减训练网络，比较各类改进梯度下降方法的效果，则获得1觉醒点。

调参

浅尝（+1点）

明确自己的模型里有哪些超参数。
大概知道超参数的优先级，会先去尝试调学习率。

入门（+1点）

调参整体思想：随机选数，由粗至精。
不要均匀采样，而要根据参数的意义选择合适的搜索尺度。

批归一化

浅尝（+0点）

知道批归一化的存在。
知道深度学习框架有时默认附带批归一化操作。

入门（+1点）

知道批归一化的意义，与输入归一化的异同。
知道批归一化层有两个超参数。

精通（+1点）

知道批归一化的数学公式（正向传播、反向传播）。
知道批归一化在测试时的用法。

精通II（+1点）

动手实现批归一化

博闻（+1点）

完成入门即可学习。

了解其他的几种归一化(layer, group)。
知道不同归一化方法的优劣。

多分类问题

浅尝（+1点）

多分类问题的定义。
知道多分类问题的输出、训练集标签与二分类有什么不同。

精通 - softmax（+1点）

softmax的公式定义。
如何在网络中使用softmax。
大致了解softmax为什么要做一步指数运算。

精通II - 实现带softmax的多分类网络（+1点）

one-hot编码转换。
实现多分类网络。
利用one-hot处理标签和输出结果，正确评测多分类网络。

初识Tensorflow

浅尝 - 编程框架（+1点）

知道编程框架能做什么事。
认识常见的编程框架。
知道选择编程框架的原则。

入门（+1点）

安装GPU版的TensorFlow。

精通（+2点，+1觉醒点）

前置知识：多分类问题

使用TensorFlow实现多分类网络。

第二阶段自评

在“回顾”一节中，共35个普通技能点，4个觉醒技能点。普通技能点主要表示课堂知识，以及少量的课堂上没讲到的可拓展知识点（我自己也拿不满），觉醒技能点主要表示对知识的综合实现与应用。让我们根据自己获得的技能点数，看看自己的学习情况。

Level 0：乱搞一通

条件：技能点≤5

评价：随便去拷贝了几份深度学习代码，跑通了，就以为自己会深度学习了。丝毫不去关心深度学习的基础知识。这样下去，学习和应用更难的深度学习技术时肯定会碰到很多困难。

Level 1：初来乍到

条件：6≤技能点≤15

预估学习情况：大致获取了6个浅尝技能点和7个入门技能点，没有对知识做进一步的思考和实现。

评价：要学会使用深度学习编程框架，甚至复现出一些经典模型，了解入门知识就足够了。尽管如此，钻研更深的知识对深度学习项目的开发还是有很大的帮助的。

Level 2：学有所成

条件：16≤技能点≤22。至少有1个觉醒点才能升级到Level 2。

预估学习情况：完全获取了6个浅尝技能点和7个入门技能点，深入理解了部分知识，进行过代码实现。

评价：非常棒！相信在这一过程中，你已经对部分知识有了更深的理解。第二阶段的所有知识都很重要，建议坚持下去，把所有知识都探究完。

Level 3：登堂入室

条件：23≤技能点≤32。至少有3个觉醒点才能升级到Level 3。

预估学习情况：完全获取了6个浅尝技能点和7个入门技能点，基本获取了17个精通知识点，对部分自己感兴趣的知识做了额外的探究。

评价：恭喜！学到这里，你可以说自己已经完全掌握了第二阶段的知识了。同时，在多个代码实现项目中，你也锻炼了编程能力，从代码的角度近距离接触了各项知识。相信这些学习经验会对你未来的学习和应用产生莫大的帮助。

Level 4：学无止境

条件：33≤技能点≤35。至少有4个觉醒点才能升级到Level 4。

预估学习情况：学懂了除博闻外所有的知识点，对课堂中没有详细介绍的知识做了补充学习。同时，完成了大量的编程练习。

评价：很强。能做到这一步，说明你对深度学习的学习充满了兴趣。相信这一兴趣能够帮助在未来的学习中走得更远。

成就

此外，还要颁发两个成就：

编程狂魔：获取4个觉醒点。

百科全书：获取5个博闻知识点。

第三阶段知识预览

经过了三周紧张的学习，我们学到了非常多硬核的深度学习知识，还完成了不少编程项目。

在《深度学习专项》的下一门课《组织深度学习项目》中，我们会用两周时间，轻松地学一些不那么困难的知识：

机器学习改进策略的宗旨
- 正交化
设置改进目标
- 评估指标
- 数据集划分的细节
与人类表现比较
- 为什么使用人类的表现
- 理解并利用人类表现
- 试图改进模型以超过人类的表现
差错分析
- 分析开发误差的由来
- 清理错标数据
不匹配的训练与开发/测试集
- 如何使用不同分布的数据
- 如何在这种情况下评估偏差与方差
- 解决数据不匹配问题
完成多个任务
- 迁移学习
- 多任务学习
端到端学习
- 什么是端到端学习
- 何时用端到端学习

从标题中也能大致看出，这些知识基本不涉及任何复杂的数学公式，学习起来应该会很轻松。不过，了解这些知识也是很有必要的。在搭建一个能解决实际问题的深度学习项目时，这些组织深度学习项目的经验往往能帮助到我们。让我们做好准备，迎接新课程的学习。

周弈帆的博客

吴恩达《深度学习专项》第二阶段总结与第三阶段预览

第二阶段回顾

数据集划分

偏差与方差

正则化

参数初始化

梯度检查

mini-batch

指数加权移动平均

高级梯度下降算法

学习率衰减

调参

批归一化

多分类问题

初识Tensorflow

第二阶段自评

Level 0：乱搞一通

Level 1：初来乍到

Level 2：学有所成

Level 3：登堂入室

Level 4：学无止境

成就

第三阶段知识预览