历史百科网

字符编码

[拼音]:zifu bianma

[外文]:code

在符号 与数字系统之间建立对应关系,它是信息处理的一项基本技术。通常人们用符号 (一般情况下就是文字)来表达信息。而以计算机为基础的信息处理系统则是利用元件(硬件)不同状态的组合来存储和处理信息的。元件不同状态的组合能代表数字系统的数字,因此编码就是将符号转换为计算机可以接受的数字系统的数,称为数字代码。例如,数码管有10个状态,分别表示从0到9的10个数字,可以构成一个十进制数字系统。由26个英文字母A、B、C、…、Z组成的符号 可用两位十进制数来编码:A呏01,B呏02,C呏03,…,Z呏26。符号 有26个元素,而两位十进制数字系统有100个元素,其中有74个元素没有使用。双稳态元件可以构成二进制数字系统,既经济效率又高,便于用集成电路实现,为计算机所采用。

编码的方式很多,但都应当满足下述要求:

(1)符号之间的某种关系应当在相应的编码中有所反映。例如,字母表中有个顺序关系:A在B之前,B在C之前等,可对应编码的大小关系:01<02,02<03等。

(2)作用于符号的操作和对应的作用于数的操作能产生相对应的结果。例如,要找出B、E、A、C中排在字母表最前面位置的字母和在02(对应B),05(对应E),01(对应A),03(对应C)中找出数值 小的数,这两种操作会得到相对应的结果A和01。

(3)表达方式应当是 高效率的,能够缩小数字系统的体积,减少浪费。

十进制数码的二进制表示法

十进制数码的符号一共有10个,即0,1,…,9,可用4位二进制数码或4位以上的二进制数码来表示。主要的方法是加权编码,在每个二进制数码上给予不同的权。例如用 4位二进制数对一位十进制数进行编码:

D呏b4b3b2b1

其中D是十进制数码符号0~9,bi是二进制数码0或1,可规定 4个权,W1、W2、W3、W4同b1、b2、b3、b4对应。这时,十进制数码D同二进制数的对应规律为:

D=biWi=b4W4+b3W3+b2W2+b1W1

如果两个不同的二进制数对应同一个D,则要附加一条规则来决定究竟用哪一个数。常用的4位编码(表1)有以下几种:

(1)8421码 从左到右的权为8、4、2、1。这种表示和二进制表示是一致的,又称二进制编码的十进制,简称BCD码。

(2)7421码 从左到右的权为7、4、2、1。此时数字7对应于两个二进制数1000和0111,所以要附加一条规则,即挑选其中1的个数少的一个,即选1000为数字7的编码。

(3)742-1码 其中最右边的一个权取负值。此时数字6对应两个二进位数1001和0110,附加规则为挑选其中有较低有效数的一个,即选1001为数字6的编码。

(4)XS3码(XS3是英文excess-3的缩写,即加三码)在BCD码的基础上加上二进制数0011,即加上十进制的三。

常用检错编码

编码位数多的好处是便于检查差错,编码的结构简单,由硬件实现起来也容易。常用检错编码(表2)有4种。

(1)五取二码 取5位二进制数码,每个数中包含两个1。

(2)二元五进码(BQ码) 取7位二进数码,分成左右两部分,左面两位,右面五位。每个数中包含两个1,一个在左部,一个在右部。出错检查很容易,只要左部或右部出现1的个数不为一时,肯定有错。这种编码硬件实现也较容易。

(3)改进的二元五进码(MBQ码) 取 4位二进制数码,最左一位对应二元五进码左部,右面三位对应它的右部,权为5421。

(4)格雷码 因由 F.格雷发明而得名。他调整二进位数的次序,使两相邻的数码只有一位不同。它能满足特殊情况下的要求,即把机械位移量转换成二进制编码时可得到较高的可靠性。

字母表的二进制数表示

完全的字母表一般包括下列符号:拉丁字母A~Z,数字0~9,标点符号,特殊符号如&、 @、$ 、¥ 、…。 字母还可分大写和小写,另外还有许多控制用符号,并考虑到扩充的可能性。符号的总数不超过256个。一个符号可以用8位二进制数来表示。主要的编码方式有3种。

(1)霍勒里思码 一种IBM机器穿孔卡片的编码形式。每张卡片80列,12行。每列表示一个符号,用12位。

(2)扩充的二进制编码的十进制交换码(EBCDIC码) IBM开发的8位编码,适用于IBM360和IBM370等计算机。

(3)美国标准信息交换码(ASCII码) 实际上是 7位码,附加一位校验码,一共8位。

汉字编码

汉字字符多、数量大,过去的编码系统杂乱繁复,使用与维护极不方便。这种情况给汉字信息处理系统的软件与硬件的设计和制造带来很大困难,严重阻碍汉字信息处理技术的发展。1980年 我国公布了国家标准《汉字交换码,基本集》即国家标准GB2312-80信息交换用汉字编码符基本集。标准于1981年5月1日起开始执行。标准规定了信息交换用的基本图形字符及其二进制编码表示,它适用于一般汉字处理,汉字通信系统之间的信息交换。

这一标准集规定了一般符号、序号、数字、拉丁字母、汉字等共7445个图形字符。其中一般符号202个,序号60个,数字22个,拉丁字母52个,日文假名169个,希腊字母48个,俄文字母66个,汉语拼音符号26个,汉语注音字母37个,汉字6763个。根据使用频度,将汉字分为两级,第 一级汉字3755个,按汉语拼音字母顺序排列,第二级汉字3008个,按部首排列。

严正声明:本文由历史百科网注册或游客用户灵武 自行上传发布关于» 字符编码的内容,本站只提供存储,展示,不对用户发布信息内容的原创度和真实性等负责。请读者自行斟酌。同时如内容侵犯您的版权或其他权益,请留言并加以说明。站长审查之后若情况属实会及时为您删除。同时遵循 CC 4.0 BY-SA 版权协议,尊重和保护作者的劳动成果,转载请标明出处链接和本声明内容:作者:灵武;本文链接:https://www.freedefine.cn/wenzhan/55966.html

赞 ()
我是一个广告位
留言与评论(共有 0 条评论)
   
验证码: