《机器学习面试题.docx》由会员分享,可在线阅读,更多相关《机器学习面试题.docx(1页珍藏版)》请在第一文库网上搜索。
1、机器学习面试题1、如何处理神经网络中的过拟合问题答:有多种方法进行处理11/12正则化dropoutdataargumentationear1ystop2、RHU激活函数的优缺点?答:优点包括:解决了梯度消失、爆炸的问题计算方便,计算速度快,求导方便加速网络训练缺点包括:由于负数部分恒为0,会导致一些神经元无法激活输出不是以0为中心3、dropout方法在预测过程中需要如何处理?答:在训练过程中做了sca1e,那么在预测过程中就不需要做dropout,设置keep_prob=1即可4、梯度消失和梯度爆炸的问题是如何产生的?如何解决?答:第一个问题相对简单,由于反向传播过程中,前面网络权重的偏导
2、数的计算是逐渐从后往前累乘的,如果使用公式激活函数的话,由于导数小于一,因此累乘会逐渐变小,导致梯度消失,前面的网络层权重更新变慢;如果权重公式本身比较大,累乘会导致前面网络的参数偏导数变大,产生数值上溢。因为sigmoid导数最大为1/4,故只有当abs(w)4时才可能出现梯度爆炸,因此最普遍发生的是梯度消失问题。解决方法通常包括:使用Re1U等激活函数,梯度只会为0或者1,每层的网络都可以得到相同的更新速度;采用1STM进行梯度裁剪(C1iP),如果梯度值大于某个阈值,我们就进行梯度裁剪,限制在一个范围内使用正则化,这样会限制参数公式的大小,从而防止梯度爆炸设计网络层数更少的网络进行模型训
3、练;batchnorma1ization,)5、非平衡数据集的处理方法有哪些?答:采用更好的评价指标,例如F1、AUC曲线等,而不是ReCa1I、PreCiSion进行过采样,随机重复少类别的样本来增加它的数量;进行欠采样,随机对多类别样本降采样通过在已有数据上添加噪声来生成新的数据修改损失函数,添加新的惩罚项,使得小样本的类别被判断错误的损失增大,迫使模型重视小样本的数据使用组合/集成方法解决样本不均衡,在每次生成训练集时使用所有分类中的小样本量,同时从分类中的大样本量中随机抽取数据来与小样本量合并构成训练集,这样反复多次会得到很多训练集和训练模型C最后在应用时,使用组合方法(例如投票、加权投票等)产生分类预测结果;