当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 6 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 搜狗scel词库解析(转fcitx词库格式)
帖子发表于 : 2010-01-01 15:56 

注册: 2008-11-01 21:42
帖子: 1028
地址: 树下板凳
送出感谢: 0 次
接收感谢: 1
以前也有人写过搜狗txt词库转fcitx词库的程序,不过还是有些不完善,在多音字处理方面有比较大的缺陷,这次我通过分析搜狗scel专用格式文件,用程序解析成fcitx词库格式,由于scel词库里面信息比较完整,包含注音 ,字词优先级,词库信息等内容,解析出来的东西更完整 ,准确性更高 ,所以又以scel格式为基础做了点转fcitx的重复工作

使用方法:
./sgscel2fcitx sougou.scel
生成的sg_pyPharese.org文件 即为fcitx格式的
如何生成到.mb文件 自己去找吧,懒得找了

引用:
sw@~/mypro/utfconvert$./sgscel2fcitx 2.scel
字库名称:古诗词名句【官方推荐】
字库类别:文学
字库信息:包含了绝大多数的古诗词名句
字库示例:为人性僻耽佳句 读书破万卷 奇文共欣赏 文章千古事
sw@~/mypro/utfconvert$head sg_pyPhrase.org
ai'hao'you'lai'luo'bi'nan 爱好由来落笔难
ai'min'sheng'zhi'duo'jian 哀民生之多艰
ai'shang'ceng'lou 爱上层楼
ai'zi'xin'wu'jin 爱子心无尽
an'an'sheng'tian'ji 黯黯生天际
an'bu'wang'wei 安不忘危
an'de'guang'sha'qian'wan'jian 安得广厦千万间
an'di'hua'shao 暗滴花梢
an'neng'cui'mei'zhe'yao'shi'quan'gui 安能摧眉折腰事权贵
an'ran'xiao'hun'zhe 黯然销魂者
sw@~/mypro/utfconvert$


如果鱼王能够增加多词库支持那就太好了 ,直接可以把.scel转成.mb格式了

关于版权问题 ,sg词库反正也是免费 ,这里不过是做点 兼容工作,应该没什么问题

俺也只测试了几个词库,bug难免,有问题在这里说吧

附件:
sgscelparse.tar.gz [6.54 KiB]
被下载 915 次


_________________
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 搜狗scel词库解析(转fcitx词库格式)
帖子发表于 : 2010-01-05 8:57 
头像

注册: 2009-09-14 0:46
帖子: 513
地址: 广东惠州
送出感谢: 0 次
接收感谢: 0 次
支持楼主的工作,还有fcitx有个毛病,会加载整个词库到内存,我一开始打字的时候,内存就增加了几十M(用的是论坛里面的ibus词库),最后我觉得楼主说的
引用:
关于版权问题 ,sg词库反正也是免费 ,这里不过是做点 兼容工作,应该没什么问题

可能有点问题,版权和免费没有必然联系吧!


_________________
AMD3800+, 1GX2 ,500G
Ubuntu 10.04| openbox+tint2+pcmanfm+nitrogen+chrome+xcompmgr

----------再也不换头像----------


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 搜狗scel词库解析(转fcitx词库格式)
帖子发表于 : 2010-01-05 15:02 

注册: 2008-11-01 21:42
帖子: 1028
地址: 树下板凳
送出感谢: 0 次
接收感谢: 1
fcitx全部加载到内存的问题,你向鱼王反映吧,他自己也注意到了这个问题(以前帖子他也说过以后考虑). 不加载到内存就要读盘,这个是一对矛盾,看来鱼王又要出一个选项了,来选择是全部加载到内存或者词库小于多少就全部加载到内存

引用:
版权和免费没有必然联系吧

我只是指使用免费的sg词库在版权方面没什么问题(即没侵权),就象播放器 ,不内置解码器,不管用户提供给他的是什么解码器,他都能使用,只要发布时没有内置,版权应该没问题

我现在只是想为fcitx增加一个简单的词库增减功能的工具(内置到配置工具中),能识别比较常见的词库格式(包括sg词库,但不限于搜狗),所以还是要考虑一下词库的版权问题(即兼容他是否侵权),以免造成不必要的麻烦.当然,这只是我觉得,不过也也希望大家说说自己的看法.

制作词库增减工具,还有个问题,需要鱼王添加fcitx对多词库功能支持,否则词库将无法管理(注册机制不好实现,词库边界划分麻烦,词库稳定性也受影响),有了多词库支持的话,不需要先生成pyPharese.org文本文件,直接生成单个的 .mb文件就可以了


_________________
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 搜狗scel词库解析(转fcitx词库格式)
帖子发表于 : 2010-01-05 15:48 
头像

注册: 2009-10-26 2:18
帖子: 119
送出感谢: 0 次
接收感谢: 0 次
你牛B破解人家的词库了
这次我完全不羡慕搜狗了~ 爽


_________________
http://code.google.com/p/ubuntu-soft/


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 搜狗scel词库解析(转fcitx词库格式)
帖子发表于 : 2010-04-08 0:56 
头像

注册: 2009-10-26 2:18
帖子: 119
送出感谢: 0 次
接收感谢: 0 次
楼主 ,, 能否改改程序
fcitx 已经改为utf8编码 ,
能否 把程序改为直接输出为utf8编码的词库


_________________
http://code.google.com/p/ubuntu-soft/


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 搜狗scel词库解析(转fcitx词库格式)
帖子发表于 : 2010-04-09 13:29 

注册: 2008-11-01 21:42
帖子: 1028
地址: 树下板凳
送出感谢: 0 次
接收感谢: 1
现在没搞了 ,黑手不是搞了个java版的么(本版置顶) ?还是词频的问题搞不定,没时间研究了
和utf-8编码没什么关系的 ,反正都是用fprintf输出的 ,在linux下应该就是utf-8的,应该是词库制作工具的事情了


_________________
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 6 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译