# why
- why 解决什么问题
- 不仅理解知识本身,还需要知道知识的 **「来龙去脉」**,否则写不出 why。
# what
- 词汇表是在训练模型开始前需要人为决定的一个[[超参数]],并且每个模型的词汇表不会有删减和更新。
- 每个token有固定的、唯一的Token ID (token index索引,sequences of Integers),这些 ID 来自于原始互联网数据,先经过**清洗、[[tokenization]]**(如使用BPE编码),转换为一系列离散的token ID,。
- 例如 GPT-3 的词汇表大小为 50257,每个 token 都会有一个 0-50256 的 ID。其中 50256 为特殊字符`<|endoftext|>`
- 这些 ID是第一次,也是唯一一次在模型中看到的整数序列,后面就都是由[[浮点数]]组成的向量了。
- 词汇表大小决定了token [[Embedding]] matrix 的列的大小。
# how
- GPT-3:50257 token;GPT-4:100277个 token 可能性(*经过测试发现的一个比较适合的词汇表大小*);
# how good
# Ref.
- [playground-tokenizer](https://platform.openai.com/tokenizer)