Eclipse和UTF-8及Unicode的研究

说研究就研究,尽量一丝不苟。
仔细研究了一下我们那个Properties的过程,发现原理是这个样子的。
首先对比了一下文件的Hex的编码情况:
使用记事本存储“我是人”三个字,发现如下:
首先可以发现Unicode、Unicode-Bigendin前面都有辨别码,分别是FF EF、EF FF,以此区别编码序列,也同时声明了这是一个Unicode的文件。每一个汉字使用两个字节。也就是说用的是UCS-4。
而UTF-8也使用了辨别码,但所有UTF-8字符都是3个字节的,辩证码是EF BB BF,和Unicode的辩证码其实是一个字符。每个汉字用3个字节表示。学习相关知识可知Unicode和UTF-8是可以直接映射的,两者影射其实是兼容的。
而Ansi模式其实应该使用的是GB2312编码,没有辨别码,所以需要默认的编码,中文Windows就默认GB2312。编码每个中文用2个字节,编码以后的内容和Unicode不同。
继续分析我们开发所用的环境的过程:
首先,分析Eclipse写出来的文件,此时我设置的工作空间编码为UTF-8,发现文件没有辨别码,也就是说这个文件被其他编辑器打开不可能知道这是什么编码。而文件里面其实根本就没有使用UTF-8编码,因为所有的中文都是2个字节的编码。我怀疑是UCS-4,所以分析一下,在刚才用记事本写的文件里面写入“美食同盟网”察看Hex状态的编码。
在Eclipse的文件里面“美”编码0xC3C0。Unicode里面是0x8E7F。Ansi里面是0xC3C0。Unicode-big里面肯定是0X7F8E,和Unicode那个反过来没的说。
所以,呵呵,我想一切旋疑都解开了。我们敬爱的Eclipse不管如何设置,其实他还是使用了你的操作系统的默认编码,而我们这里就是GB2312了,即使我们设置了UTF-8。其实问题是这样的,本来Eclipse默认latin-1编码,如果用那个方式,写了中文的双字节字符以后再打开就会造成乱码,而设置了UTF-8以后能解决以多字节(2个、3个)的方式打开文件的问题,不过其实还是用GB2312打开,这个可能是Eclipse对Properties文件未知格式的原因,因为用Eclipse打开存储UTF-8的XML文件是没有问题的,这个大家都有经验。由于Eclipse的多字节文件没有存储识别码,所以XML文件还有JSP文件的Charset一定要声明UTF-8,否则还是有可能出问题。
然后到这里已经真相大白了,这样再解释一下前几天出现的那些问题:
1、由于单字节多字节的问题和Eclipse不存储识别码的问题,我们最好把工作环境强行换到一个多字节环境,比如UTF-8。防止互相出现乱码,大家最好都用中文的Windows,否则估计还有可能出现问题。
2、解释上次native2ascii -encoding gb2312 ApplicationResources.properties ApplicationResources_zh.properties这个命令,网上那位老兄还说为什么Encoding改成UTF-8不行呢,因为你的Windows默认的就是gb2312,设UTF-8当然乱码。
3、解释native2ascii。其实这个过程和UTF-8没有任何关系,而且编码出来的文件的确是Unicode的转义字符。其实编出来的文件根本本就是最普通的单字节Ascii文件,只不过它把双字节的Hex方式直接用明文存储为单字节Ascii文件了,转换明文使用Big endian方式,也就是高位在后。为什么这样呢,因为Java多字节只支持Unicode,或者说是遗留,反正Java没有直接支持UTF-8,内部传输都使用Unicode。这不是问题,因为映射相同输出的时候Java很容易把Unicode转为UTF-8。而我们转那个文件只不过为了让Java可以轻松的把你的文件从转义字符转化为Unicode,过成就比如把“/uC3C0”这样的自符串转化为“美”的编码0xC3C0了。这么说有点乱,过程其实如下:
“美”在Eclipse存,然后在文件中如果用Hex察看是[C3 C0]。
然后用Native2ascii转,你看不到“美”只能看到\u7f8e,而这时候如果用Hex察看是[5C 75 37 66 38 65]这么大一长串Ascii了。
这次明白了吧。
4、关于UTF-8和Unicode还有UCS的东西大家看看资料吧,一搜一大把。
UTF-8 and Unicode FAQ(中文,这个很官方,很有价值)
http://www.linuxfans.org/nuke/modules.php?name=News&file=article&op=view&sid=1749
谈谈Unicode编码 简要解释UCS/UTF/BMP/BOM(说的很通俗,而且涉及到的细节多,帮助大)
http://news.onlinedown.net/info/13164-1.htm

One thought on “Eclipse和UTF-8及Unicode的研究”

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.