[更新] 搜狗词库 for fcitx-utf8 和 sunpinyin

系统字体配置、中文显示和输入法问题
头像
hubert_star
论坛版主
帖子: 5373
注册时间: 2007-10-29 22:12
系统: OSX 10.9 + Ub 1304
来自: 江苏南京

[更新] 搜狗词库 for fcitx-utf8 和 sunpinyin

#1

帖子 hubert_star » 2010-10-15 16:42

跟我之前发帖的120余万的词库差不多,不过这次上来的词库是专用于fcitx-utf8的

下载地址:

fcitx-utf8的搜狗词库精简版,仅整合搜狗词库、计算机词汇和诗词古句等:
http://hslinuxextra.googlecode.com/file ... e-small.7z

fcitx-utf8的搜狗词库,非常全面:
http://hslinuxextra.googlecode.com/file ... se-full.7z


主要改进在于去掉了一些很长的词,有些词库文件文件里面有单字,也给去掉了(会影响词频)

这个词库我用了两天,感觉还不错,虽然full的这个词库很大,但是如果机器资源足够的话问题倒不大,相应速度没有太大影响。small这个词库仅仅是搜狗官方词库、计算机专业词库、网络流行词和诗词古句等。


用法很简单:

如果你的fcitx-utf8是源代码安装的,只要把下载目录的pyPhrase.org替换掉原来的data目录下的同名文件再编译安装即可。

如果你的fcitx-utf8是二进制包,那么用终端进入到下载目录中,执行:./run.sh,然后把生成的下列文件:pybase.mb和pyphrase.mb复制到 /usr/share/fcitx/data目录下覆盖原文件即可。

PS:

这个词库是用于fcitx-utf8的
如果你的fcitx-utf8词库文件不是在/usr/share/fcitx/data下面,那么请自己查找词库文件的安装目录再覆盖。
覆盖系统文件需要root权限!


另外在linuxsir上有朋友提议做一个sunpinyin的词库,由于sunpinyin的userdict很方便,直接用他的转码工具生成即可,我把full的词库做了一个sunpinyin的userdict,解压后把文件覆盖原有的~/.sunpinyin/userdict就可以了。

http://hslinuxextra.googlecode.com/file ... serdict.7z

精简版的词库:

http://hslinuxextra.googlecode.com/file ... t-small.7z

我用的是fcitx-sunpinyin,用这个词库可以直接输出下面两个句子,大家试试看:

咱们马老太从夫子庙那里到中华门还能碰到奥巴马

咱们马老太从夫子庙那里还能买到三聚氰胺和汶川地震的介绍


尤其是sunpinyin的内存占用很低,比较适合大词库。
佛经说,人有八苦: 生、老、病、死、求不得、怨憎、爱别离、五阴盛 故我苦!
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒  故我有罪!

我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;

特此声明!

有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。

欢迎来我的新浪微博@me
头像
Dim
帖子: 640
注册时间: 2009-04-06 15:03

Re: 搜狗词库 for fcitx-utf8

#2

帖子 Dim » 2010-10-15 16:43

:em11 ,支持,,,,,,,,,分享
,
头像
momova
帖子: 3381
注册时间: 2007-07-11 21:43
系统: archlinux
来自: 东江边

Re: 搜狗词库 for fcitx-utf8

#3

帖子 momova » 2010-10-15 17:58

我用五笔拼音,能用得上不?
我来了,我看见了,我征服了!
求勾搭,不管饭。
头像
anonymity
帖子: 645
注册时间: 2009-03-14 16:31
来自: 不在故乡的地方

Re: 搜狗词库 for fcitx-utf8

#4

帖子 anonymity » 2010-10-16 12:33

momova 写了:我用五笔拼音,能用得上不?
和输入法没关系吧……
Only the dead have seen the end of war!
头像
jxhow
帖子: 5859
注册时间: 2008-10-24 22:02
来自: 浙江

Re: 搜狗词库 for fcitx-utf8

#5

帖子 jxhow » 2010-10-16 12:39

好像只试用于拼音
LZ又来了 :em04
http://sb.google.com/ 提问前 请在右上角搜索一下
头像
hcym
帖子: 15634
注册时间: 2007-05-06 2:46

Re: 搜狗词库 for fcitx-utf8

#6

帖子 hcym » 2010-10-16 13:06

small一下
وإذا كان هذا لا يحصل أكثر من 100 ملاحظات ، انا ذاهب الى غضب
头像
leeaman
帖子: 30702
注册时间: 2007-02-02 18:14
系统: debian sid

Re: 搜狗词库 for fcitx-utf8

#7

帖子 leeaman » 2010-10-16 13:08

不用这个,看得眼花,太多选择
醉了星星,醉月亮●●●●●The Long Way To Go(*^_^*)
头像
hcym
帖子: 15634
注册时间: 2007-05-06 2:46

Re: 搜狗词库 for fcitx-utf8

#8

帖子 hcym » 2010-10-16 13:39

这次small的不错,谢谢黑手

就是opera太tm变态,还jb出11
:em11
وإذا كان هذا لا يحصل أكثر من 100 ملاحظات ، انا ذاهب الى غضب
头像
hcym
帖子: 15634
注册时间: 2007-05-06 2:46

Re: 搜狗词库 for fcitx-utf8

#9

帖子 hcym » 2010-10-16 13:52

还是chrome厚道

词库,跟随表现完美

再谢黑手
:em04
وإذا كان هذا لا يحصل أكثر من 100 ملاحظات ، انا ذاهب الى غضب
头像
大宝
帖子: 3077
注册时间: 2008-06-30 22:32
联系:

Re: 搜狗词库 for fcitx-utf8

#10

帖子 大宝 » 2010-10-16 21:39

LZ 怎么没用马甲唱双簧了? :em04
头像
hubert_star
论坛版主
帖子: 5373
注册时间: 2007-10-29 22:12
系统: OSX 10.9 + Ub 1304
来自: 江苏南京

Re: [更新] 搜狗词库 for fcitx-utf8 和 sunpinyin

#11

帖子 hubert_star » 2010-10-16 23:31

被某头像泛绿光之男封了那段时间之后,两个号换着用,所以那时候偶尔会客串一下,现在很少用另外一个马甲了
佛经说,人有八苦: 生、老、病、死、求不得、怨憎、爱别离、五阴盛 故我苦!
圣经说,人有七罪: 饕餮、贪婪、懒惰、淫欲、傲慢、嫉妒和暴怒  故我有罪!

我这篇帖子里面没有任何攻击我们伟大的中华人民共和国政府和任劳任怨的人民公仆(和本论坛高素质的版主)的文字和含义;

特此声明!

有些事,我们明知道是错的,也要去坚持,因为不甘心;有些人,我们明知道是爱的,也要去放弃,因为没结局;有时候,我们明知道没路了,却还在前行,因为习惯了。

欢迎来我的新浪微博@me
RDX
帖子: 4
注册时间: 2010-10-17 0:31

Re: [更新] 搜狗词库 for fcitx-utf8 和 sunpinyin

#12

帖子 RDX » 2010-10-17 0:33

真的很好用
太感谢了! :em11
csslayer
帖子: 575
注册时间: 2009-08-03 13:08

Re: [更新] 搜狗词库 for fcitx-utf8 和 sunpinyin

#13

帖子 csslayer » 2010-10-17 9:53

威武,还有sunpinyin的词库阿
头像
hcym
帖子: 15634
注册时间: 2007-05-06 2:46

Re: [更新] 搜狗词库 for fcitx-utf8 和 sunpinyin

#14

帖子 hcym » 2010-10-17 9:57

确实好使

10.10+fcitx_4.0_r455
内存80多
:em04
وإذا كان هذا لا يحصل أكثر من 100 ملاحظات ، انا ذاهب الى غضب
头像
npnufn
帖子: 1847
注册时间: 2005-10-14 15:56

Re: [更新] 搜狗词库 for fcitx-utf8 和 sunpinyin

#15

帖子 npnufn » 2010-10-17 12:13

好用的很。
fcitx词库用精简的,fcitx-sunpinyin用这个大的 :em05
回复