- Objective: 提高模型的泛化能力,解决过度拟合问题 - Breadcrumb: # 概念阐释 正则化(regularization)是指为解决[[overfitting 过度拟合]]问题而加入的额外信息。让模型对新数据有更好的泛化能力。 常见的正则化方法包括: 1. **L1 正则化(Lasso)**: - 在损失函数中加入权重绝对值的和作为惩罚项。 - 优点:可以产生稀疏模型,即一些权重被压缩为零,有助于特征选择。 - 数学形式:Loss=Original Loss+λ∑i∣wi∣Loss=Original Loss+λ∑i​∣wi​∣ 2. **L2 正则化(Ridge)**: - 在损失函数中加入权重平方和作为惩罚项。 - 优点:可以防止权重过大,有助于模型的稳定性和泛化能力。 - 数学形式:Loss=Original Loss+λ∑iwi2Loss=Original Loss+λ∑i​wi2​ 3. **弹性网络正则化(Elastic Net)**: - 结合了L1和L2正则化的优点,通过调节参数实现两者的权衡。 - 数学形式:Loss=Original Loss+λ1∑i∣wi∣+λ2∑iwi2Loss=Original Loss+λ1​∑i​∣wi​∣+λ2​∑i​wi2​ 4. **[[Dropout 失活]]**: - [[Geoffrey Hinton 辛顿]]发明 - 在每次训练迭代中随机忽略一些神经元,以减少神经元之间的依赖。 - 优点:有效防止神经网络过拟合,提高模型泛化能力。 5. **数据增强**: - 通过对训练数据进行各种变换(如旋转、缩放、翻转等)来增加训练数据量。 - 优点:提高模型在不同数据变换下的鲁棒性,减少过拟合。 6. **早停(Early Stopping)**: - 在训练过程中监控模型在验证集上的性能,当性能不再提升时停止训练。 - 优点:防止模型在训练集上过拟合,提高泛化能力。 # 实例 # 相关内容 - **优化optimization**: 是指在**已有训练集**上实现最小训练误差,使得模型的预测性更高。常见方法为[[gradient descent 梯度下降]]。 - **泛化generlization**: 是指在**未经过训练的测试集**上实现最小泛化误差,避免过度拟合 # 参考资料 - [深度学习中的正则化方法(Regularization)](https://0809zheng.github.io/2020/03/03/regularization.html#:~:text=正则化(Regularization)指的,网络结构、约束优化过程%E3%80%82) - [正则化-GPT](https://chatgpt.com/share/4b938648-0b76-473e-86d6-4e50f08840a7) - [正则化-维基百科](https://zh.wikipedia.org/wiki/正则化_(数学)) - 《深度学习》谢诺夫斯基 09