[讨论]关于GB18030、GBK、UTF-8不同的locale体验

quantumfang · #1

偶然发现，在GDM登录界面竟然能选择默认语言，竟然忽略了这一点，原来以为只能支持utf8的locale。

我在GB18030、GBK、UTF-8不同的locale下的登录，比较了文件名乱码问题（文件内容没问题，如原来utf-8编码的openoffice文件不受影响）

在GB18030 locale下，windows下的文件（GB2312编码）（包括下载的）在“文件管理器”内当然能够识别文件名，但是在控制台下：乱码，还是只能显示utf-8编码。QFTP软件远程GBK文件正常显示了，本地utf-8文件乱码，GBK字符正常，audacious也是这样。还是BMP比较好，什么编码都能显示正常。
然而，在gftp中远程站点仍然乱码，看来这软件比较顽固，只支持utf-8。

在UTF-8 locale下就不用说了，刚好相反，肯定是utf-8的能显示，所有GBK编码的乱码，网络上GBK编码的文件下载过来名字就花了。

GBK当然与GB18030差不多。

鱼与熊掌如何兼得啊。在编码问题上，要是ubuntu能象xp一样就好了。

好像还有一个问题，utf-8 locale时，系统速度快一些，但是GB18030 locale时速度就慢了，影响明显，是不是locale造成的，有待进一步考证。

我感觉，GB18030登录，只是支持显示，什么意思呢？即使GB18030编码的文字能正常显示，但是如果你建立新文件用输入命名时，依然是UTF-8编码，这是致命的。也就是说，能显示GB18030的环境，却不能创建一个完全GB18030的世界，。

leec0621 · #2

支持楼主的体验~~

SCerZZ · #3

请问有什么方法可以改变不？我也发现这个问题了，我改为GBK后，显示是没什么问题，但经常要在windows间传东西，不方便啊,毕竟要支持使用环境啊

hyfx · #4

同样的问题，搜索到这个老帖子，不知道有什么办法解决没有？？？

eexpress · #5

系统不是编码都认的嘛？只有ftp远程是需要指定编码而已。系统仍然是认识的啊。这测试思路似乎不清晰

wizardyhnr · #6

搜一下论坛还是有方法的，看看以前我写的帖子，viewtopic.php?t=67407&highlight=

zhlk1001 · #7

gb18030的显示是通过utf8转换而来，理论上会慢
实际中没有什么感觉

huhu2k · #8

应该推广UTF-8，废除一些国家标准，维护自己国家标准只会搬起石头砸自己的脚，真实的应用最后还是会选择国际标准，这样对我们的社会财富是一种浪费，倒不如花些时间精力把UTF-8做好。

ljj_jjl2008 · #9

支持楼主，我也有这个疑问，不过不敢轻易尝试，担心把系统弄乱，谢谢楼主了。

jobinson99 · #10

huhu2k 写了：应该推广UTF-8，废除一些国家标准，维护自己国家标准只会搬起石头砸自己的脚，真实的应用最后还是会选择国际标准，这样对我们的社会财富是一种浪费，倒不如花些时间精力把UTF-8做好。

问题不是这么简单的，
GB18030是国家强制标准，向下兼容gbk ，gb2312，收录了所有Unicode3.1中的字符，包括中国少数民族字符，韩文，日文，繁体，偏旁部首等等，也可以说是世界大多民族的文字符号都被收录在内。GB18030编码是变长编码，有单字节、双字节和四字节三种方式，共计1611668个码位，远远超过Unicode 17个平面的1114112个码位，编码空间巨大。GB 18030-2005收录了70244个汉字——不论是从现在状态对比，还是将来发展来看，其对象形文字的支持都明显会比utf-8好。
而且，很多较早的机器、软件都是gb2312 gbk的，这些日常最常见的是很久以前编辑的文档，但这些都还是小的，更重要的、并且可能产生大问题的存在是科学、军工等特殊领域。

当然，普通使用没必要那么多字，使用utf-8，gbk甚至gb2312就够了。

对我个人来说，我一般两个全开，同时还开繁体的utf-8和big5

huhu2k · #11

占用共计1611668个码位为全球五分之一人口服务，Unicode占用1114112个码位为全球人民服务，这是什么精神？这是国际主义精神！

jobinson99 写了：
huhu2k 写了：应该推广UTF-8，废除一些国家标准，维护自己国家标准只会搬起石头砸自己的脚，真实的应用最后还是会选择国际标准，这样对我们的社会财富是一种浪费，倒不如花些时间精力把UTF-8做好。
问题不是这么简单的，
GB18030是国家强制标准，向下兼容gbk ，gb2312，收录了所有Unicode3.1中的字符，包括中国少数民族字符，韩文，日文，繁体，偏旁部首等等，也可以说是世界大多民族的文字符号都被收录在内。GB18030编码是变长编码，有单字节、双字节和四字节三种方式，共计1611668个码位，远远超过Unicode 17个平面的1114112个码位，编码空间巨大。GB 18030-2005收录了70244个汉字——不论是从现在状态对比，还是将来发展来看，其对象形文字的支持都明显会比utf-8好。
而且，很多较早的机器、软件都是gb2312 gbk的，这些日常最常见的是很久以前编辑的文档，但这些都还是小的，更重要的、并且可能产生大问题的存在是科学、军工等特殊领域。

当然，普通使用没必要那么多字，使用utf-8，gbk甚至gb2312就够了。

对我个人来说，我一般两个全开，同时还开繁体的utf-8和big5

cece · #12

export

[讨论]关于GB18030、GBK、UTF-8不同的locale体验

[讨论]关于GB18030、GBK、UTF-8不同的locale体验

Re:

Re: Re:

Re: [讨论]关于GB18030、GBK、UTF-8不同的locale体验