当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 6 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 关于文档的编码方式识别
帖子发表于 : 2010-01-16 19:09 

注册: 2008-07-12 17:18
帖子: 159
送出感谢: 0 次
接收感谢: 1
有BOM的几种编码很好判断,没有BOM的像UTF-8也是可以判断的,因为UTF-8编码是有规律的
1字节:0xxxxxxx
2字节:110xxxxx 10xxxxxx
3字节:1110xxxx 10xxxxxx 10xxxxxx
4字节:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

如果文档时GBK或BIG5编码的,应该如何识别呢?是否有类似的编码规律呢?
或者有没有现成的什么库吗?转码倒是有个libiconv很方便,识别不知有没有

写一个文本编辑器时碰到此问题了


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 关于文档的编码方式识别
帖子发表于 : 2010-01-16 23:11 
头像

注册: 2009-09-20 19:30
帖子: 765
地址: GIS
系统: ubuntu12.04
送出感谢: 0 次
接收感谢: 0 次
没看明白。。。 :em20


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 关于文档的编码方式识别
帖子发表于 : 2010-01-16 23:27 
头像

注册: 2008-07-30 23:21
帖子: 13424
地址: freebuilder@yeah.net
系统: Debian stable AMD64
送出感谢: 38
接收感谢: 126
英文没学好,一日看到一串单词不懂,于是请人解释,他说是壮语,我问他怎么知道是壮语的,他说“因为我英语和壮语都很nb”。


_________________
(2015-11-16 更新)适合 WM 的截图脚本
(2015-08-24 更新)Debian、Ubuntu 源列表说明
(2013-02-01 首发)文字如何绘出
▷▷ 【更 多 在 此】 ◁◁
箪食瓢饮随遇安,不求栋梁求参天。
【初韵】一门牛逼的编程语言。


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 关于文档的编码方式识别
帖子发表于 : 2010-01-17 1:51 

注册: 2008-11-01 21:42
帖子: 1028
地址: 树下板凳
送出感谢: 0 次
接收感谢: 1
有规律的 ,没规律别人怎么写编码转换工具,gbk和unicode不难区分 ,big5没用过 ,网上关于gbk和unicode的资料很多啊


_________________
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 关于文档的编码方式识别
帖子发表于 : 2010-01-17 13:43 
头像

注册: 2005-06-19 23:33
帖子: 106
送出感谢: 0 次
接收感谢: 0 次
libenca 似乎是用来猜测编码方式的,不过不能100%正确,似乎应该没有办法100%正确吧!


_________________
Ubuntu Karmic
acer 5595 : core2 duo T7200;2*1024M DDR2-667 ;intel 965pm;ati mobility readon X1600

贫贱不能移,富贵不能淫,威武不能屈


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 关于文档的编码方式识别
帖子发表于 : 2010-01-17 13:50 
头像

注册: 2009-08-02 10:07
帖子: 171
送出感谢: 0 次
接收感谢: 0 次
自由建客 写道:
英文没学好,一日看到一串单词不懂,于是请人解释,他说是,我问他怎么知道是壮语的,他说“因为我英语和壮语都很nb”。


是记录发音结构和英语有不同。

咯咪咯(壮语)?


_________________
再议,就是再议论议论,再研究研究,再商量商量,再权衡权衡,再比较比较,再考虑考虑,再观察观察,再看看,再想想,再等等..等等等等....


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 6 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 1 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译