# why - why 解决什么问题 - 不仅理解知识本身,还需要知道知识的 **「来龙去脉」**,否则写不出 why。 # what - 词汇表是在训练模型开始前需要人为决定的一个[[超参数]],并且每个模型的词汇表不会有删减和更新。 - 每个token有固定的、唯一的Token ID (token index索引,sequences of Integers),这些 ID 来自于原始互联网数据,先经过**清洗、[[tokenization]]**(如使用BPE编码),转换为一系列离散的token ID,。 - 例如 GPT-3 的词汇表大小为 50257,每个 token 都会有一个 0-50256 的 ID。其中 50256 为特殊字符`<|endoftext|>` - 这些 ID是第一次,也是唯一一次在模型中看到的整数序列,后面就都是由[[浮点数]]组成的向量了。 - 词汇表大小决定了token [[Embedding]] matrix 的列的大小。 # how - GPT-3:50257 token;GPT-4:100277个 token 可能性(*经过测试发现的一个比较适合的词汇表大小*); # how good # Ref. - [playground-tokenizer](https://platform.openai.com/tokenizer)