- Objective: 对比与人类语言中的字符与 LLM 中的 token - Breadcrumb: # 概念阐释 Unicode 是一种字符编码标准,旨在为世界上几乎所有的书写系统中的每个字符分配**唯一的数字代码**(称为码点)。它解决了不同字符编码标准之间的兼容性问题,使得在全球范围内交换和使用文本更加统一和无歧义。 ### 核心特点 1. **全球化支持**:Unicode 覆盖了几乎所有语言的字符,包括拉丁字母、汉字、阿拉伯字母、希腊字母以及其他符号,如表情符号(Emoji)。 2. **统一性**:每个字符都有一个唯一的码点。例如,字母 "A" 的 Unicode 码点是 `U+0041`,而汉字 "汉" 的码点是 `U+6C49`。 3. **多种编码形式**:Unicode 定义了多种实现方式来表示码点的二进制值,包括: - **[[UTF-8]]**:可变长度编码,每个字符用 1 至 4 个字节表示,兼容 [[ASCII]],广泛用于网络传输。 - **UTF-16**:固定长度编码(大部分字符占用 2 字节),用于内存占用敏感的场景。 - **UTF-32**:固定长度编码,每个字符占用 4 字节,直接表示 Unicode 码点。 # 实例 Unicode 编码被广泛应用于现代计算系统中,包括: - **操作系统**:支持不同语言的文件名和界面文字。 - **互联网**:网页和协议(如 HTML 和 XML)默认使用 UTF-8 编码。 - **编程语言**:大多数现代编程语言(如 Python、Java 和 JavaScript)都内置支持 Unicode。 # 相关内容 ### 为什么需要 Unicode? 在 Unicode 出现之前,过去不同国家、语言有各自不同的编码方式,比如中文用 GB2312、GBK,英文用 ASCII,日文用 Shift-JIS。这导致文本在不同系统之间无法互相兼容。Unicode 的出现解决了这个问题,Unicode 的诞生就是为了解决这种混乱,它统一了全球几乎所有语言、字符的编码,使电脑能明确知道每个字符的标准编号,让不同语言、系统之间的字符传递变得统一、简单。 简单总结:**Unicode 是全球字符的“身份证”,确保每个字符在不同系统中都能被正确识别和处理。** # 参考资料 - [chat with gpt](https://chatgpt.com/share/674fa564-3ffc-8002-9c17-ef2ade42cefb)