文本文件核心要素
文本文件的核心要素包括编码(字符与二进制的映射)、换行符(行结束标记)、缩进(文本层级调整),此外还有文件格式标记、BOM、空格类型等辅助要素,共同决定文本的可读性、兼容性和功能性。
一、编码:文本的“翻译字典”
编码是将人类可读的字符(如文字、符号)转换为计算机可存储的二进制(0和1)的规则,是文本文件能被正确识别的基础。
-
核心作用
解决“字符如何存进电脑”的问题,不同编码对应不同的“字符-二进制”映射表,编码不匹配会直接导致乱码。 -
常见编码及区别
- ASCII:基础编码,仅支持英文、数字和少量符号(共128个字符),无法表示中文、日文等。
- UTF-8:目前最通用的编码,兼容ASCII,支持全球所有语言字符,存储中文占3个字节,存储英文占1个字节,是跨平台、跨语言的首选。
- GBK:中文专用编码,仅支持中文字符和ASCII,存储中文占2个字节,在旧版Windows或中文场景中常见,跨语言使用易乱码。
2024/8/8大约 7 分钟