深度学习面试题

2020-06-04 19:20发布

1.描述处理神经网络中消失梯度问题的两种方法。

答:

使用ReLU激活而不是S型。

使用Xavier初始化。

2.在图像分类任务中使用CNN(卷积神经网络)而不是DNN,为什么?

答:虽然两个模型都可以捕获接近像素之间的关系,但CNN具有以下属性:

1)它是平移不变的-像素的确切位置与滤镜无关。

2)不容易产生过拟合——CNN中的典型参数数量比DNN中的参数数量少得多。

3)使人们对模型有更好的理解-我们可以查看过滤器的权重并可视化网络“学习”的内容。

4)分层性质-通过使用较简单的模式描述复杂的模式来学习模式。

3.假设一个有3层神经网络使用了ReLU激活函数。如果将所有权重初始化为相同的值,将会发生什么?如果只有一层(即线性/逻辑回归)会是什么样子?

答:如果将所有权重初始化为相同,则将无法破坏对称性。也就是说,所有梯度将被更新为相同,并且网络将无法学习。但是,在1层方案中,损失函数是凸的(线性/ S形),因此权重将始终收敛到最佳点,而与初始值无关(收敛可能会更慢)。

4.解释Adam优化器背后的想法。

答: Adam(或自适应动量)结合了两个想法来改善收敛性:每个参数更新可加快收敛速度;动量可避免卡在鞍点上。

5.比较批次、迷你批次和随机梯度下降(SGD)的区别?

答:批处理是指通过获取整个数据来估计数据,通过采样一些数据点来进行小批量处理,而SGD则是在每个时期更新一个数据点的梯度。这里的权衡是在梯度计算的精确度与可以保留在内存中的批量大小之间。此外,通过在每个时间段添加随机噪声,以小批量而不是整个批次具有正规化效果。

6.什么是数据扩充?举个例子。

答:数据扩充是一种通过对原始数据执行操作来增加输入数据的技术。例如,在图像中,可以执行以下操作:旋转图像,反射(翻转)图像,添加高斯模糊

7. GAN的概念是什么?

答: GAN或生成对抗网络由两个网络(D,G)组成,其中D是“区分者”网络,而G是“生成”网络。目标是创建数据,例如与真实图像无法区分的图像。假设要创建一只猫的对抗示例。网络G将生成图像。网络D将根据图像是否是猫来对其进行分类。G的损失函数将被构造为使得它试图“愚弄” D-将其输出始终分类为cat。

8.使用Batchnorm有什么优势?

答: Batchnorm加快了训练过程。改善了模型移动协变量问题。

9.什么是多任务学习?什么时候应该使用?

答:当有少量任务数据需要多任务处理时,多任务处理将很有用,而在另一个任务的大型数据集上训练模型将使我们受益。模型的参数可以通过“硬”方式(即相同的参数)或“软”方式(即对损失函数的正则化/惩罚)共享。

10.什么是端到端学习?列举一些优点。

答:端到端学习通常是一个模型,该模型获取原始数据并直接输出所需的结果,而无需任何中间任务或功能工程。它具有几个优点,其中包括:无需手工制作功能,并且通常可以降低偏差。

11.如果先使用ReLU激活然后再使用S型曲线作为最后一层,那会发生什么?

答:由于ReLU始终输出非负结果,因此网络将不断为所有输入预测一个类别!

12.如何解决爆炸梯度问题?

答:爆炸梯度问题的一个简单解决方法是梯度修剪-当梯度的绝对值大于M(其中M是一个大数)时,使梯度为±M。

13.使用批量梯度下降法时是否有必要将训练数据改组?

答:不可以,因为使用每个训练数据在每个历元上计算梯度,所以改组没有区别。

14.当使用小批量梯度下降时,为什么对数据进行乱序?

答:防止模型学到样本间的顺序。而这个顺序并不是样本自带的特征。

15.描述一些用于迁移学习的超参数。

答:保留几层,添加几层,冻结几层。

16。测试设备上是否使用了dropout?

答:不!仅在训练上。dropout是一种在训练过程中应用的正则化技术。

17。解释为什么神经网络中的dropout充当正则化器。

答:对于dropout为何起作用,有几种(相关的)解释。可以将其视为模型平均的一种形式-在每个步骤中, “关闭”模型的一部分并取平均值。它还会增加噪音,自然会产生调节效果。它还导致权重的稀疏性,并从根本上阻止了网络中神经元的共适应。

18.给出适合多对一RNN架构的示例。

答:情感分析,语音中的性别识别,。

19。什么时候不能使用BiLSTM?

答:在任何双向模型中,都假定可以在给定的“时间”内访问序列的下一个元素。文本数据(例如,情感分析,翻译等)就是这种情况,而时间序列数据则不是这种情况。

20。向RNN添加L2正则化可以帮助解决梯度消失的问题。正确or错误?

答:错误!添加L2正则化会将权重缩小为零,这实际上会使消失的梯度在某些情况下更糟。

21。假设训练误差/成本很高,并且验证成本/误差几乎相等。这是什么意思?应该做什么?

答:这表明拟合能力不足。可以添加更多参数,增加模型的复杂性或降低正则化。

22。描述如何将L2正则化解释为一种权重衰减。

答:假设的损失函数为C(w),并加上一个惩罚c | w | 2。使用梯度下降时,迭代看起来像

w = w -grad(C)(w)— 2cw =(1-2c)w — grad(C)(w)

在此等式中,权重乘以因子<1。