- Objective:
- Breadcrumb:
# 概念阐释
数据集通常被分为三部分:训练集、验证集和测试集。
- **训练集**:用于模型的训练,即利用这部分数据来调整模型的[[weights 权重]](参数)。
- **验证集**:通常用于模型选择过程中,帮助设计者调整模型的超参数(如学习率、层数等),并进行模型间的比较和选择。
- **测试集test set**:测试集是一组独立于模型训练数据的的数据,用来评估模型的泛化能力Generalization,是否存在[[overfitting 过度拟合]]问题。
# 实例
# 相关内容
## 使用测试集有几个关键原则:
1. **独立性**:测试集的数据应该与训练集完全独立,以避免信息泄露,确保测试结果的有效性。
2. **代表性**:测试集应该从同一数据源抽样,并且要保证能够代表模型将要处理的实际数据的特性和分布。
3. **一次性**:理想情况下,测试集应该只在整个项目的最后阶段使用一次,用于最终的性能评估,以避免模型间接地对测试集“过拟合”。
# 参考资料