Eclipse和UTF-8及Unicode的研究

说研究就研究，尽量一丝不苟。
仔细研究了一下我们那个Properties的过程，发现原理是这个样子的。
首先对比了一下文件的Hex的编码情况：
使用记事本存储“我是人”三个字，发现如下：
首先可以发现Unicode、Unicode-Bigendin前面都有辨别码，分别是FF EF、EF FF，以此区别编码序列，也同时声明了这是一个Unicode的文件。每一个汉字使用两个字节。也就是说用的是UCS-4。
而UTF-8也使用了辨别码，但所有UTF-8字符都是3个字节的，辩证码是EF BB BF，和Unicode的辩证码其实是一个字符。每个汉字用3个字节表示。学习相关知识可知Unicode和UTF-8是可以直接映射的，两者影射其实是兼容的。
而Ansi模式其实应该使用的是GB2312编码，没有辨别码，所以需要默认的编码，中文Windows就默认GB2312。编码每个中文用2个字节，编码以后的内容和Unicode不同。
继续分析我们开发所用的环境的过程：
首先，分析Eclipse写出来的文件，此时我设置的工作空间编码为UTF-8，发现文件没有辨别码，也就是说这个文件被其他编辑器打开不可能知道这是什么编码。而文件里面其实根本就没有使用UTF-8编码，因为所有的中文都是2个字节的编码。我怀疑是UCS-4，所以分析一下，在刚才用记事本写的文件里面写入“美食同盟网”察看Hex状态的编码。
在Eclipse的文件里面“美”编码0xC3C0。Unicode里面是0x8E7F。Ansi里面是0xC3C0。Unicode-big里面肯定是0X7F8E，和Unicode那个反过来没的说。
所以，呵呵，我想一切旋疑都解开了。我们敬爱的Eclipse不管如何设置，其实他还是使用了你的操作系统的默认编码，而我们这里就是GB2312了，即使我们设置了UTF-8。其实问题是这样的，本来Eclipse默认latin-1编码，如果用那个方式，写了中文的双字节字符以后再打开就会造成乱码，而设置了UTF-8以后能解决以多字节（2个、3个）的方式打开文件的问题，不过其实还是用GB2312打开，这个可能是Eclipse对Properties文件未知格式的原因，因为用Eclipse打开存储UTF-8的XML文件是没有问题的，这个大家都有经验。由于Eclipse的多字节文件没有存储识别码，所以XML文件还有JSP文件的Charset一定要声明UTF-8，否则还是有可能出问题。
然后到这里已经真相大白了，这样再解释一下前几天出现的那些问题：
1、由于单字节多字节的问题和Eclipse不存储识别码的问题，我们最好把工作环境强行换到一个多字节环境，比如UTF-8。防止互相出现乱码，大家最好都用中文的Windows，否则估计还有可能出现问题。
2、解释上次native2ascii -encoding gb2312 ApplicationResources.properties ApplicationResources_zh.properties这个命令，网上那位老兄还说为什么Encoding改成UTF-8不行呢，因为你的Windows默认的就是gb2312，设UTF-8当然乱码。
3、解释native2ascii。其实这个过程和UTF-8没有任何关系，而且编码出来的文件的确是Unicode的转义字符。其实编出来的文件根本本就是最普通的单字节Ascii文件，只不过它把双字节的Hex方式直接用明文存储为单字节Ascii文件了，转换明文使用Big endian方式，也就是高位在后。为什么这样呢，因为Java多字节只支持Unicode，或者说是遗留，反正Java没有直接支持UTF-8，内部传输都使用Unicode。这不是问题，因为映射相同输出的时候Java很容易把Unicode转为UTF-8。而我们转那个文件只不过为了让Java可以轻松的把你的文件从转义字符转化为Unicode，过成就比如把“/uC3C0”这样的自符串转化为“美”的编码0xC3C0了。这么说有点乱，过程其实如下：
“美”在Eclipse存，然后在文件中如果用Hex察看是[C3 C0]。
然后用Native2ascii转，你看不到“美”只能看到\u7f8e，而这时候如果用Hex察看是[5C 75 37 66 38 65]这么大一长串Ascii了。
这次明白了吧。
4、关于UTF-8和Unicode还有UCS的东西大家看看资料吧，一搜一大把。
UTF-8 and Unicode FAQ（中文，这个很官方，很有价值）
http://www.linuxfans.org/nuke/modules.php?name=News&file=article&op=view&sid=1749
谈谈Unicode编码简要解释UCS/UTF/BMP/BOM（说的很通俗，而且涉及到的细节多，帮助大）
http://news.onlinedown.net/info/13164-1.htm

Eclipse和UTF-8及Unicode的研究

One thought on “Eclipse和UTF-8及Unicode的研究”

Leave a Reply