词汇表 - 朱婉妤的知识库

# why - why 解决什么问题 - 不仅理解知识本身，还需要知道知识的 **「来龙去脉」**，否则写不出 why。 # what - 词汇表是在训练模型开始前需要人为决定的一个[[超参数]]，并且每个模型的词汇表不会有删减和更新。 - 每个token有固定的、唯一的Token ID （token index索引，sequences of Integers），这些 ID 来自于原始互联网数据，先经过**清洗、[[tokenization]]**（如使用BPE编码），转换为一系列离散的token ID，。 - 例如 GPT-3 的词汇表大小为 50257，每个 token 都会有一个 0-50256 的 ID。其中 50256 为特殊字符`<|endoftext|>` - 这些 ID是第一次，也是唯一一次在模型中看到的整数序列，后面就都是由[[浮点数]]组成的向量了。 - 词汇表大小决定了token [[Embedding]] matrix 的列的大小。 # how - GPT-3：50257 token；GPT-4：100277个 token 可能性（*经过测试发现的一个比较适合的词汇表大小*）； # how good # Ref. - [playground-tokenizer](https://platform.openai.com/tokenizer)