- Objective: 解决自然语言处理中标注数据的问题
- Breadcrumb: 自然语言处理
# 概念阐释
模型预训练(Pre-train)将任务分为两个部分,原任务与目标任务:
- 原任务:在原任务上训练一个初始模型;
- 目标任务(Fine-tune):在目标任务上对该模型进行微调,从而达到更高准确率的目的;
## 预训练语言模型类型
- 静态词向量预训练模型
- 动态词向量预训练模型
- [[LLM 大语言模型]](大规模预训练语言模型,如[[BERT]]、[[GPT]])
# 实例
## 视觉领域的预训练模型
预训练模型这个方法不是[[NLP 自然语言处理]]的首创。在计算机视觉领域就有先通过预训练让模型从海量数据中学习如何提取图像特征,然后再根据具体的目标任务进行微调 Fine-tune的方法。以[[ImageNet]]数据库为例,模型一般会显示用 ImageNet 数据库进行预训练。
## 预训练模型与[[LLM 大语言模型]]
广义上预训练模型可以指预训练图像模型、预训练语言模型,在预训练语言模型中又可以指静态词向量预训练模型、动态词向量预训练模型,但预训练模型这个词是在 2018 年之后以 GPT 和 BERT 为代表的基于 transformer 架构的大语言模型(表示模型)出现后才被人所知的,所以目前提到预训练模型,一般都是指这类 LLM 大语言模型。
# 相关内容
## 预训练与人类的学习
预训练的过程就好像我们读小学、初中、高中阶段会学习更多的科目(数理化英语文),先夯实基础,构建基本的知识体系,这部分就属于预训练部分。然后等进入大学再选择想要继续深挖的领域,这一部分会难度更大,更有针对性,这就相当于 Fine-tune 的部分。
# 参考资料
- 《自然语言处理》p9、p174
- [state of GPT原文](obsidian://open?vault=Harry%E7%9A%84%E6%91%98%E5%BD%95%E7%B4%A0%E6%9D%90%E5%BA%93&file=%E7%9F%A5%E8%AF%86%E8%A7%86%E9%A2%91%2Fstate%20of%20GPT)