发新话题
打印

中文信息的机内表示

中文信息的机内表示


汉字字符集与编码   1 d/ K1 b& v, S" m& M. y
1981年,国家制定(GB2312-80)国家标准,其中有6763个汉字和682个非汉字字符,其字符及编码称为国标码又叫国际交换码。
8 U0 }  |+ X' J$ }+ j# H% LGB2312字符集的构成: ) S2 H. a1 v+ d
一级常用汉字3755个,按汉语拼音排列 * w: Y0 s5 h' d' F2 m2 s
二级常用汉字3008个,按偏旁部首排列
  t- O6 N+ W  J4 Z$ D非汉字字符682个   ; k4 g! k, ?2 F8 O
GB2312构成两维平面(区位码),94*94,行号为区号,列号为位号,各占一个字节,取其7位表示。 6 g% U# ^* L# H' M$ S5 I. b7 A
例:“大”的区号是20,位号是83,则其区位码为: 2083。(00010100 01010011 ) 区位码 32=国标码; 00110100 01110011  ' ^2 h! w; B' {1 E* V8 y* g* y- v
汉字以双字节表示,各字节的最高位为1的汉字编码叫“机内码”,或“内码”。
6 q) q2 d9 N0 Y$ T# {6 y$ U例:“大”的区号是20,位号是83,则其机内码为: 10110100 11110011   
6 p; P6 y: S7 B/ [/ J% K1 B- z. T) T8 f3 m1 x7 U3 r& b, ~3 Q. \0 f4 E

( K0 v( U# F$ T$ _( D" G2 N+ p2 h汉字字符集与编码
' z8 Y0 [/ J& ~$ k! s" G, e3 r汉字的区位码和国际码是唯一的,而内码的表示方法可以不同。
  ^9 c2 T9 Z2 o/ s4 |" {1 \BIG5--台湾,420个图形符号,13070个汉字,繁体。 / J& _" P. ?/ k- x: t+ U  V- ~6 y1 i
ISO/IEC 10646,即UCS(国际),中国标准为GB13000,其编码空间大,缺点是效率低;其简化方案为UCS-2,Unicode编码,长度为16位,CJK编码为此方案的大中国区的统一编码。
5 [! Y, h7 k9 w# n, L5 P+ HWindows支持Unicode编码,但其空间仍不足,且与ASCII不兼容。
, ]2 U  J; d* q- L; }1 Q新的编码为GBK:与GB2312-80完全兼容,支持GB13000的CJK汉字和BIG5中的非汉字符号。  & p2 k3 A: w8 {' s5 ~# M4 V4 Y

9 v* K, J) y  D+ M0 E7 X( O  t, R1 g& D& R
- L/ C% _3 h! m* e
0 C  K- y3 V6 P, o) p

6 d* c0 W! m! p* H汉字输入的方法:$ Z' v* {2 G% {: m
手写汉字联机识别、扫描输入识别、键盘输入。
7 G; ]- e. r2 E- t
  c2 M& l7 y8 f6 ?输入编码的要求:
4 i  w  z2 n3 ~  x" [+ ?8 N易学、易记、效率高、重码少、容量大。
- O# V) T& t" }5 Q5 g" D( s& Y4 P( _( m- E' q- h& l8 w
输入编码的分类:
  Q+ o% @& D/ ]数字编码(如:区位码、电报码,难记)' A! q8 U. i  A! O+ v, s9 M( y6 L

, L) ]/ E3 [7 A
6 W+ c# A3 {* R' {, u- q字音编码(简单,但重码多)
+ Q- L% C' W' h+ }- e( t) }" ~' j

* d" _/ a7 p/ v" u- V形音编码(规则简单、重码少,学习不易)
1 {/ r. t) I6 H( H3 q
: m3 Q5 ^1 {, q6 b7 y注意:汉字输入编码、内码和交换码概念不同,同一个汉字无论以什么方法输入,其内码是一样的、交换码也是一样的,但其可以用不同的输入编码方法输入计算机。   
6 e' h- L$ a2 y6 o- y& j6 l汉字的输出  
1 Q# j6 ^# X- [2 Y9 P字库(font):汉字字符的形状描述信息集合,不同的字体对应不同的字库。在输出每一个汉字的时候,计算机都要先到字库中去找到它的字形描述信息,然后把字形信息送输出。 字形描述方法:点阵字形(“1”表示对应位置是黑点、“0”表示是空白)和轮廓字形(用曲线描述,精度高、字形可变,如:Windows中的TrueType)。



点击图标进入精品网摘收藏 欢迎大家加入网络收藏夹

TOP

发新话题