搜狗scel词库解析(转fcitx词库格式)
发表于 : 2010-01-01 15:56
以前也有人写过搜狗txt词库转fcitx词库的程序,不过还是有些不完善,在多音字处理方面有比较大的缺陷,这次我通过分析搜狗scel专用格式文件,用程序解析成fcitx词库格式,由于scel词库里面信息比较完整,包含注音 ,字词优先级,词库信息等内容,解析出来的东西更完整 ,准确性更高 ,所以又以scel格式为基础做了点转fcitx的重复工作
使用方法:
./sgscel2fcitx sougou.scel
生成的sg_pyPharese.org文件 即为fcitx格式的
如何生成到.mb文件 自己去找吧,懒得找了
关于版权问题 ,sg词库反正也是免费 ,这里不过是做点 兼容工作,应该没什么问题
俺也只测试了几个词库,bug难免,有问题在这里说吧
使用方法:
./sgscel2fcitx sougou.scel
生成的sg_pyPharese.org文件 即为fcitx格式的
如何生成到.mb文件 自己去找吧,懒得找了
如果鱼王能够增加多词库支持那就太好了 ,直接可以把.scel转成.mb格式了sw@~/mypro/utfconvert$./sgscel2fcitx 2.scel
字库名称:古诗词名句【官方推荐】
字库类别:文学
字库信息:包含了绝大多数的古诗词名句
字库示例:为人性僻耽佳句 读书破万卷 奇文共欣赏 文章千古事
sw@~/mypro/utfconvert$head sg_pyPhrase.org
ai'hao'you'lai'luo'bi'nan 爱好由来落笔难
ai'min'sheng'zhi'duo'jian 哀民生之多艰
ai'shang'ceng'lou 爱上层楼
ai'zi'xin'wu'jin 爱子心无尽
an'an'sheng'tian'ji 黯黯生天际
an'bu'wang'wei 安不忘危
an'de'guang'sha'qian'wan'jian 安得广厦千万间
an'di'hua'shao 暗滴花梢
an'neng'cui'mei'zhe'yao'shi'quan'gui 安能摧眉折腰事权贵
an'ran'xiao'hun'zhe 黯然销魂者
sw@~/mypro/utfconvert$
关于版权问题 ,sg词库反正也是免费 ,这里不过是做点 兼容工作,应该没什么问题
俺也只测试了几个词库,bug难免,有问题在这里说吧