如何判断一个文件的语言编码?

sh/bash/dash/ksh/zsh等Shell脚本
回复
fego
帖子: 8
注册时间: 2007-05-31 10:26

如何判断一个文件的语言编码?

#1

帖子 fego » 2007-06-26 11:14

想写一个脚本,判断该文件用的语言编码为何?
觉得无从下手,有高手可以指点下?
主要是为了通过判断编码,从而进行编码转换。比如简体-繁体或者繁体-简体
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙

#2

帖子 eexpress » 2007-06-26 11:23

enca
● 鸣学
头像
iblicf
帖子: 3766
注册时间: 2007-01-15 17:15

#3

帖子 iblicf » 2007-06-26 11:31

geidt 选另存的时候就能看编码,还能改
fego
帖子: 8
注册时间: 2007-05-31 10:26

#4

帖子 fego » 2007-06-26 12:31

enca,认不出来
gedit也不好用,再说,这样看也不是办法啊。
包括用vi 的:set fileencoding也不准确啊。
这些都是和locale有关系的。 :shock: :shock: :shock:
头像
BigSnake.NET
帖子: 12522
注册时间: 2006-07-02 11:16
来自: 廣州
联系:

Re: 如何判断一个文件的语言编码?

#5

帖子 BigSnake.NET » 2007-06-26 12:56

fego 写了:想写一个脚本,判断该文件用的语言编码为何?
觉得无从下手,有高手可以指点下?
主要是为了通过判断编码,从而进行编码转换。比如简体-繁体或者繁体-简体
简体繁体不能称为"不同编码"
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙

#6

帖子 eexpress » 2007-06-26 12:57

$● enca sci.c
Simplified Chinese National Standard; GB2312
CRLF line terminators
● 鸣学
头像
cnxcy
帖子: 23
注册时间: 2006-08-24 23:02

#7

帖子 cnxcy » 2007-06-28 18:36

我的不行:

代码: 全选

$ enca ./Desktop/000-神农本草经.txt
Unrecognized encoding
实际文件应该是GBK码的.
头像
BigSnake.NET
帖子: 12522
注册时间: 2006-07-02 11:16
来自: 廣州
联系:

#8

帖子 BigSnake.NET » 2007-06-28 19:20

cnxcy 写了:我的不行:

代码: 全选

$ enca ./Desktop/000-神农本草经.txt
Unrecognized encoding
实际文件应该是GBK码的.
可能有些编码是错误的..看不出来而已
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙

#9

帖子 eexpress » 2007-06-28 20:15

多半那文件是混杂了编码,或者你的分区挂载参数有问题。
● 鸣学
回复