当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 6 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 中文字符到底占几个字节?
帖子发表于 : 2010-12-07 19:34 

注册: 2009-12-02 15:49
帖子: 61
送出感谢: 0 次
接收感谢: 0 次
有这个一个文件 a.txt
——————————————————————
13623652956 乌鲁木齐
13298652397 北京
——————————————————————
cat a.txt| awk '{if (length($2)==8) print $0}'
有时候输出正常
13623652956 乌鲁木齐
有时候,就没有输出,需要改成length($2)==4,才正常

这是怎么回事啊


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 中文字符到底占几个字节?
帖子发表于 : 2010-12-07 19:51 
头像

注册: 2010-08-08 20:02
帖子: 741
系统: Ubuntu 12.04
送出感谢: 0 次
接收感谢: 1
编码不同,长度不同。。。


_________________
退避九舍:富贵不能淫,贫贱不能移,威武不能屈:坚持ubuntu不动摇!


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 中文字符到底占几个字节?
帖子发表于 : 2010-12-07 20:00 

注册: 2009-12-02 15:49
帖子: 61
送出感谢: 0 次
接收感谢: 0 次
退避九舍 写道:
编码不同,长度不同。。。


在同一个机器上运行,怎么还会变啊
是不是可以指定编码啊


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 中文字符到底占几个字节?
帖子发表于 : 2010-12-09 11:26 
头像

注册: 2008-09-18 13:11
帖子: 2808
送出感谢: 1
接收感谢: 461
这个问题首先要看你当前的终端语言编码和文件编码。当两者一致时,awk的统计是按字符而非字节来算的。当不一致,就说不清到底算成多少个了

经过测试如下

“乌鲁木齐”长度:
当控制台为UTF8,文件为UTF8时,长度为4
当控制台为GBK,文件为GBK时,长度为4
当控制台为UTF8,文件为GBK时,长度为8
当控制台为GBK,文件为UTF8时,长度为6


代码:
echo $LANG

来看当前终端的编码

代码:
file a.txt

来看文件编码,注意如果是GBK的话,会被当作ISO-8859

要设置终端编码,用
代码:
export LANG=zh_CN.UTF8   #设置成UTF8
export LANG=zh_CN.GBK   #设置成GBK


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 中文字符到底占几个字节?
帖子发表于 : 2010-12-09 11:32 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 274
不要试图用字节去处理中文。


_________________
● 鸣学


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 中文字符到底占几个字节?
帖子发表于 : 2010-12-15 17:59 
头像

注册: 2010-12-03 11:08
帖子: 46
送出感谢: 0 次
接收感谢: 0 次
:em11


_________________
我喜欢忙一点...
Lost Temple...


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 6 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译