ITPub博客

首页 > Linux操作系统 > Linux操作系统 > 国内字符集标准以及国际标准

国内字符集标准以及国际标准

原创 Linux操作系统 作者:andyann 时间:2011-06-14 14:55:25 0 删除 编辑
最近看到国内有多种字符集标准,出于好奇就简单查了查,搞清楚概念才不至于混乱,如下:

GB为国家强制性国家标准,国标,中国国家编码。

1、GB2312:标准号GB2312-1980。
《信息交换用汉字编码字符集 基本集》,简体中文的地区是强制使用的唯一中文编码。

2、GB13000:标准号GB13000-1993。
《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》 特点:Unicode规范。

3、GBK:汉字国标扩展码。GB2312+Unicode CJK
GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准,1995年完成。特点:简、繁体字融于一库。

4、GB18030:标准号GB18030-2000和GB18030-2005
《信息交换用汉字编码字符集基本集的扩充》主要增加了少数民族的文字。
GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。
GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。

说明:上面是按照旧到新排序的,兼容模式:新兼容旧。
数据库使用方面:
国内一般使用ZHS16GBK。
台湾香港等地使用big5编码--繁体中文。
日本使用SJIS编码--日文。
英文使用US7ASCII编码。
建议:采用国际编码UTF-8


Unicode:(统一码、万国码、单一码)是一种在计算机上使用的字符编码。

Universal Character Set,UCS(通用字符集) UCS-2用两个字节编码,UCS-4用4个字节编码。

Unicode的实现方式称为Unicode转换格式(Unicode Transformation Format,简称为UTF)
UTF-8、UTF-16、UTF-32。

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码(定长码),也是一种前缀码。
UTF-16:基本多语言平面内定义的符号使用2个字节表示,在此之外的字符(其他平面内的字符),则使用4个字节表示。
UTF-32:是一种将Unicode字符编码的协定,对每一个Unicode码位使用恰好32位元,每个字符都使用4字节。

关于字符集的介绍,写的很详细了:
http://blog.csdn.net/tianlesoftware/archive/2009/12/02/4915223.aspx

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/24070945/viewspace-697896/,如需转载,请注明出处,否则将追究法律责任。

下一篇: vi编辑器的使用
请登录后发表评论 登录
全部评论

注册时间:2011-03-24

  • 博文量
    25
  • 访问量
    89115