当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 24 篇帖子 ]  前往页数 1, 2  下一页
作者 内容
1 楼 
 文章标题 : 文本内容编码转换
帖子发表于 : 2008-06-30 21:25 
头像

注册: 2007-02-27 21:47
帖子: 1473
地址: GL
送出感谢: 0 次
接收感谢: 0 次
我有几个10MB左右的文本文件,原来是Win下的GB2312,但在ubuntu下用gedit总是打不开,选什么编码都不行,所以就
代码:
iconv -f GB2312 -t UTF-8 RMRB1.TXT -o RMRB1_utf8.TXT

但只向目标文件正确输出了一小部分,然后就报出错,信息是“iconv: 3903位置的非法输入序列”,请问这是什么意思啊


_________________
Intel Pentium Dual Core 2.1G, 250G, DDRII 3G, ATI Radeon HD 4330
LMDE


页首
 用户资料  
 
2 楼 
 文章标题 :
帖子发表于 : 2008-06-30 21:27 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
用 GB18030


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
3 楼 
 文章标题 :
帖子发表于 : 2008-06-30 21:36 
头像

注册: 2007-02-27 21:47
帖子: 1473
地址: GL
送出感谢: 0 次
接收感谢: 0 次
BigSnake.NET 写道:
用 GB18030

效果是一样的 :roll:


_________________
Intel Pentium Dual Core 2.1G, 250G, DDRII 3G, ATI Radeon HD 4330
LMDE


页首
 用户资料  
 
4 楼 
 文章标题 :
帖子发表于 : 2008-06-30 21:58 
头像

注册: 2007-11-19 21:51
帖子: 6956
地址: 成都
送出感谢: 0 次
接收感谢: 4
加-c参数试试。


页首
 用户资料  
 
5 楼 
 文章标题 :
帖子发表于 : 2008-06-30 22:05 
头像

注册: 2007-02-27 21:47
帖子: 1473
地址: GL
送出感谢: 0 次
接收感谢: 0 次
xiooli 写道:
加-c参数试试。

忽略非法字符,输出的大小好像是对的,但输出的文件又打不开了


_________________
Intel Pentium Dual Core 2.1G, 250G, DDRII 3G, ATI Radeon HD 4330
LMDE


页首
 用户资料  
 
6 楼 
 文章标题 :
帖子发表于 : 2008-06-30 22:06 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
RegentW 写道:
xiooli 写道:
加-c参数试试。

忽略非法字符,输出的大小好像是对的,但输出的文件又打不开了


干脆用 enconv 试试 ..


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
7 楼 
 文章标题 :
帖子发表于 : 2008-06-30 22:17 
头像

注册: 2007-02-27 21:47
帖子: 1473
地址: GL
送出感谢: 0 次
接收感谢: 0 次
BigSnake.NET 写道:
RegentW 写道:
xiooli 写道:
加-c参数试试。

忽略非法字符,输出的大小好像是对的,但输出的文件又打不开了


干脆用 enconv 试试 ..

代码:
$ enca RMRB1.TXT
Unrecognized encoding
$ enconv RMRB1.TXT
enconv: Cannot convert `RMRB1.TXT' from unknown encoding


_________________
Intel Pentium Dual Core 2.1G, 250G, DDRII 3G, ATI Radeon HD 4330
LMDE


页首
 用户资料  
 
8 楼 
 文章标题 :
帖子发表于 : 2008-06-30 22:22 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
你那个文件编码有问题???

iconv -c 应该可以解决的


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
9 楼 
 文章标题 :
帖子发表于 : 2008-06-30 22:29 
头像

注册: 2007-02-27 21:47
帖子: 1473
地址: GL
送出感谢: 0 次
接收感谢: 0 次
编码没问题啊,在windows下用写字板可以打开,没有错误


_________________
Intel Pentium Dual Core 2.1G, 250G, DDRII 3G, ATI Radeon HD 4330
LMDE


页首
 用户资料  
 
10 楼 
 文章标题 :
帖子发表于 : 2008-07-01 13:33 
头像

注册: 2007-03-13 17:26
帖子: 2254
送出感谢: 0 次
接收感谢: 1
告诉你,用 gvim ,

一看到 gedit 就讨厌

把 set fileencodings=utf-8,ucs-bom,cp936,big5,euc-jp,euc-kr,latin1,default 这行加到 ~/.vimrc 里去,能自动检测文件编码

打开后 :se fe=utf-8 再保存就转成 utf8 了


页首
 用户资料  
 
11 楼 
 文章标题 :
帖子发表于 : 2008-07-01 14:47 
头像

注册: 2007-02-27 21:47
帖子: 1473
地址: GL
送出感谢: 0 次
接收感谢: 0 次
:shock:
谢楼上的建议,打开全部是乱码


_________________
Intel Pentium Dual Core 2.1G, 250G, DDRII 3G, ATI Radeon HD 4330
LMDE


页首
 用户资料  
 
12 楼 
 文章标题 :
帖子发表于 : 2008-07-01 14:54 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
代码:
iconv -f GB18030 -t UTF-8 RMRB1.TXT -c


看出来的是什么


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
13 楼 
 文章标题 :
帖子发表于 : 2008-07-01 15:00 
头像

注册: 2007-02-27 21:47
帖子: 1473
地址: GL
送出感谢: 0 次
接收感谢: 0 次
BigSnake.NET 写道:
代码:
iconv -f GB18030 -t UTF-8 RMRB1.TXT -c


看出来的是什么

这个能正确显示文件内容,谢BigSnake :)
接下来我试了
代码:
$ iconv -f GB18030 -t UTF-8 RMRB1.TXT > RMRB1_utf8.TXT -c

输出文件还是打不开


_________________
Intel Pentium Dual Core 2.1G, 250G, DDRII 3G, ATI Radeon HD 4330
LMDE


页首
 用户资料  
 
14 楼 
 文章标题 :
帖子发表于 : 2008-07-01 15:01 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
-c 放前面.. > RMRB1_utf8.TXT 放最后

然后 enca RMRB1_utf8.TXT 看输出什么


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
15 楼 
 文章标题 :
帖子发表于 : 2008-07-01 15:05 
头像

注册: 2007-02-27 21:47
帖子: 1473
地址: GL
送出感谢: 0 次
接收感谢: 0 次
代码:
$ iconv -c -f GB18030 -t UTF-8 RMRB1.TXT -o RMRB1_utf8.TXT
$ enca RMRB1_utf8.TXT
Universal transformation format 8 bits; UTF-8
  Surrounded by/intermixed with non-text data


_________________
Intel Pentium Dual Core 2.1G, 250G, DDRII 3G, ATI Radeon HD 4330
LMDE


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 24 篇帖子 ]  前往页数 1, 2  下一页

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:Bing [Bot] 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译