当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 2 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 关于ubuntu7.10字符集与编码的疑问
帖子发表于 : 2007-11-20 15:09 

注册: 2007-11-20 14:10
帖子: 23
送出感谢: 0 次
接收感谢: 0 次
今天在写java程序读取文本文件的时候读出的不是自己想要的,于是看了下字符集与编码方面的文章。
有些疑问如下:
1:ubuntu 支持字符集的查看命令是否是 locale -m
2: ubuntu locale设置中的LANG=zh_CN.GBK,这里zh是否是中文的意思,GBK是相应的字符集,那意思就是说
系统内部中文显示是用GBK字符集的,还是说系统是用GBK来处理一般的文件读取呢?
系统/usr/lib/locale 目录中有许多字符集文件,类似与zh_CN.GBK,这些文件是否是表示系统支持的字符集文件?
而 /var/lib/locales/supported.d 目录下有 ar bn de en es fr hi local pt xh zh 文件,这些文件对应了
是什么意思呢?我在网上搜索的关于设置locale的问题,有的说要改local,zh,en文件呢,而有的只说了需要改zh文件
再这些文件后面加上你要支持的字符集。
3:我的samba经常出现乱码,samba里的设置display charset = UTF-8,unix charset = UTF-8,dos charset = UTF-8这3个项目对应的是什么意思?
4:我将机器locale以前在zh_CN.UTF-8下,没有乱码目录,改成zh_CN.GB18030,为什么文件名会出现乱码呢,
GB18030是兼容GBK和GB2312的,是超集,为什么还有中文乱码?
我的locale
LANG=zh_CN.GB18030
LC_CTYPE="zh_CN.GB18030"
LC_NUMERIC="zh_CN.GB18030"
LC_TIME="zh_CN.GB18030"
LC_COLLATE="zh_CN.GB18030"
LC_MONETARY="zh_CN.GB18030"
LC_MESSAGES="zh_CN.GB18030"
LC_PAPER="zh_CN.GB18030"
LC_NAME="zh_CN.GB18030"
LC_ADDRESS="zh_CN.GB18030"
LC_TELEPHONE="zh_CN.GB18030"
LC_MEASUREMENT="zh_CN.GB18030"
LC_IDENTIFICATION="zh_CN.GB18030"
LC_ALL=zh_CN.GB18030


总之,对于Linux对字符的处理上真是太难理解了,恳请有高手给我说下原理。。


页首
 用户资料  
 
2 楼 
 文章标题 :
帖子发表于 : 2007-11-20 17:28 
头像

注册: 2007-03-13 17:26
帖子: 2254
送出感谢: 0 次
接收感谢: 1
GB2312 < GBK < GB18030 不流行了
UTF-8 流行这个,各种语言文字可以同时出现


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 2 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 2 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译