当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 7 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 发个自己写的中文简繁转换的程序
帖子发表于 : 2008-11-06 22:54 

注册: 2007-03-19 19:15
帖子: 98
送出感谢: 0 次
接收感谢: 0 次
发个自己写的中文简繁转换的程序,只是简单的将相应的简繁体字替换。

linux下一直没找到个好的中文简繁转换程序,openoffice和永中office小文章还可以,只要超过大概500k就假死,没办法自己爱看小说,但是繁体字mp4显示乱码,网上有个zh-autoconvert,但是只闻其鼎鼎大名,就是找不到下载包,郁闷!
真好这两天学习c51,以前c语言学的不好,顺便复习一下。


另外哪位高手知道从编码转换的思路,和比较详细的资料,说一下,不胜感激。

zw-convert.c 是源代码,写的不好请高手别笑。

ft.txt 是繁体字码表

jt.txt 是简体字码表

zw-convert 是编译好的程序。

运行时zw-convert jt.txt ft.txt三个文件必须在同一目录下,

命令: zw-convert cn/tw 文件名 选参数时cn为繁体转换简体,选参数时tw为简体转换繁体。




哈哈! 谢谢 eexpress 了,enac源里就有,我找了他的说明,附上来:
介绍一个
linux
下查看文件编码的工具
enca
在debian下通过apt-get install
enca
就可以安装
它的说明如下:
Enca
is an Extremely 囗囗囗囗囗 Charset Analyser. It detects character set and
encoding of text files and can also convert them to other encodings using
either a built-in converter or external libraries and tools like libiconv,
librecode, or cstocs.
Currently it supports Belarussian, Bulgarian, Croatian, Czech,
Estonian, Hungarian, Latvian, Lithuanian, Polish, Russian, Slovak,
Slovene, Ukrainian, Chinese, and some multibyte encodings independently
on language.
使用方法举例:
# root@debian:~:0# enca blog.sqlUniversal transformation format 8 bits; UTF-8
# root@debian:~:0#
root@debian:~:0# enca abcd.txt
# Simplified Chinese National Standard; GB2312
# root@debian:~:0#

-------------------------------------------------------------------------------------------------------------------
linux下识别编码的小程序(enca)

enca命令专门用于识别编码的软件。

使用方法:
 
  enca -L zh_CN file 检查文件的编码
 
  enca -L zh_CN -x UTF-8 file 将文件编码转换为"UTF-8"编码
 
  enca -L zh_CN -x UTF-8 < file1 > file2 如果不想覆盖原文件可以这样


附件:
zw-convert0.2.zip [26.85 KiB]
被下载 120 次


最后由 starster888 编辑于 2008-11-07 12:39,总共编辑了 2 次
页首
 用户资料  
 
2 楼 
 文章标题 : Re: 发个自己写的中文简繁转换的程序
帖子发表于 : 2008-11-06 22:57 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
源里面有enca / iconv


_________________
● 鸣学


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 发个自己写的中文简繁转换的程序
帖子发表于 : 2009-06-13 21:49 
头像

注册: 2008-09-05 23:31
帖子: 1363
系统: LinuxMint17
送出感谢: 35
接收感谢: 11
:em11
看了这么多,这个帖子好。
代码:
使用方法:
 
  enca -L zh_CN file 检查文件的编码
 
  enca -L zh_CN -x UTF-8 file 将文件编码转换为"UTF-8"编码
 
  enca -L zh_CN -x UTF-8 < file1 > file2 如果不想覆盖原文件可以这样


适合懒人。


_________________
茕茕
问题大海之一粟:http://forum.ubuntu.org.cn/viewtopic.php?f=74&t=212497
NEMO-Actions使用方法:http://forum.ubuntu.org.cn/viewtopic.php?f=175&t=456548
在线编码转换:http://2cyr.com/decode/?lang=en


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 发个自己写的中文简繁转换的程序
帖子发表于 : 2009-06-13 21:51 
头像

注册: 2008-12-13 19:39
帖子: 13284
地址: 物华天宝人杰地灵
送出感谢: 1
接收感谢: 6
:em09


_________________
行到水穷处,坐看云起时。
海内生明月,天涯共此夕。
--------------------吾本独!


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 发个自己写的中文简繁转换的程序
帖子发表于 : 2009-06-14 19:45 

注册: 2007-10-27 1:04
帖子: 403
送出感谢: 0 次
接收感谢: 1
楼主的繁简对照表比较全,有效字对有2361个!基本是我原来用的那个表的两倍大了!

感谢!

不过,楼主,繁简字对间可不是一一映射的关系。就是说繁体->简体->繁体这样的两次转换,不能保证得到原文哦!


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 发个自己写的中文简繁转换的程序
帖子发表于 : 2009-06-14 19:56 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
eexpress 写道:
源里面有enca / iconv


LZ 说的是简繁...


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
7 楼 
 文章标题 : Re: 发个自己写的中文简繁转换的程序
帖子发表于 : 2009-06-20 11:58 

注册: 2008-09-21 22:25
帖子: 6
送出感谢: 0 次
接收感谢: 0 次
我顶,挺好用的 :em11


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 7 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译