http://jock.nease.net/java/Unicode.htm
Unicode
1. 编码知识
1.1 文本和字符
在计算机程序中或者数据文件里,文本(text)是作为数字序列存储的。序列中的数字是具有不同大小、取值和解释的整数。如何解释这些整数是由字符集(character set)、编码(encoding)决定的。
文本主要是由字符(character)组成。在格式文本(fancy text, or rich text)中包括显示属性,如颜色、斜体字、上标等,但仍然是以字符组成的纯文本(plain text)为基础的。有时,格式文本与纯文本之间的区别很复杂,依赖于具体的应用。
什么是字符?典型地,是字母。也可以是数字、句点、连字号、标点符号和数学符号,对于中文,也可以是汉字。还包括定义行尾和段落等的控制字符(一般不可见)。 <