- Objective: 提高模型的泛化能力,解决过度拟合问题
- Breadcrumb:
# 概念阐释
正则化(regularization)是指为解决[[overfitting 过度拟合]]问题而加入的额外信息。让模型对新数据有更好的泛化能力。
常见的正则化方法包括:
1. **L1 正则化(Lasso)**:
- 在损失函数中加入权重绝对值的和作为惩罚项。
- 优点:可以产生稀疏模型,即一些权重被压缩为零,有助于特征选择。
- 数学形式:Loss=Original Loss+λ∑i∣wi∣Loss=Original Loss+λ∑i∣wi∣
2. **L2 正则化(Ridge)**:
- 在损失函数中加入权重平方和作为惩罚项。
- 优点:可以防止权重过大,有助于模型的稳定性和泛化能力。
- 数学形式:Loss=Original Loss+λ∑iwi2Loss=Original Loss+λ∑iwi2
3. **弹性网络正则化(Elastic Net)**:
- 结合了L1和L2正则化的优点,通过调节参数实现两者的权衡。
- 数学形式:Loss=Original Loss+λ1∑i∣wi∣+λ2∑iwi2Loss=Original Loss+λ1∑i∣wi∣+λ2∑iwi2
4. **[[Dropout 失活]]**:
- [[Geoffrey Hinton 辛顿]]发明
- 在每次训练迭代中随机忽略一些神经元,以减少神经元之间的依赖。
- 优点:有效防止神经网络过拟合,提高模型泛化能力。
5. **数据增强**:
- 通过对训练数据进行各种变换(如旋转、缩放、翻转等)来增加训练数据量。
- 优点:提高模型在不同数据变换下的鲁棒性,减少过拟合。
6. **早停(Early Stopping)**:
- 在训练过程中监控模型在验证集上的性能,当性能不再提升时停止训练。
- 优点:防止模型在训练集上过拟合,提高泛化能力。
# 实例
# 相关内容
- **优化optimization**: 是指在**已有训练集**上实现最小训练误差,使得模型的预测性更高。常见方法为[[gradient descent 梯度下降]]。
- **泛化generlization**: 是指在**未经过训练的测试集**上实现最小泛化误差,避免过度拟合
# 参考资料
- [深度学习中的正则化方法(Regularization)](https://0809zheng.github.io/2020/03/03/regularization.html#:~:text=正则化(Regularization)指的,网络结构、约束优化过程%E3%80%82)
- [正则化-GPT](https://chatgpt.com/share/4b938648-0b76-473e-86d6-4e50f08840a7)
- [正则化-维基百科](https://zh.wikipedia.org/wiki/正则化_(数学))
- 《深度学习》谢诺夫斯基 09