利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

系统字体配置、中文显示和输入法问题
回复
头像
Ping-Wu
帖子: 1154
注册时间: 2012-11-14 9:34
系统: Ubuntu 18.04/19.10
送出感谢: 3 次
接收感谢: 56 次

利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#1

帖子 Ping-Wu » 2019-08-19 18:08

我们这个论坛的版主(之一) yq-ysy 发明了一套单手笔顺输入法。更让我们感动的,他花了数年时间(?),夜以继日,利用 LibreOffice Calc 敲出了一个配合这个单手笔顺输入法的庞大的词库。不利用一下实在可惜!

我趁这个周日把 yq-ysy 这个词库稍微整理一下,然后输入到 ibus-libpinyin 里去做成可以让后者使用的词库。步骤非常简单,但因为中文的输入动作,主要的关键就是一个良好的 database (词库),加入yq-ysy 这个词库后,可以让 ibus-libpinyin 变成非常强势。

我们这个论坛的大老们,可能因为年纪的关系,不太使用拼音输入法。不过据我的观察,现代国内的年轻人,几乎都跟我一样,根本不懂基于笔画的输入法。为了跟上时代,非常希望论坛的大老们能早点接受拼音输入法,支持一下 ibus-libpinyin。

把 yq-ysy 的词库移植到 ibus-libpinyin 的步骤非常简单,说出来不值一分钱(但就是要有这个心):

代码: 全选

cp 核心词库(合并)_180659个.txt ysy.input.txt
file1="ysy.input.txt"
file2="ysy.output.txt"
while read -r f1 f2 f3 f4; do printf '%s\t%s\n' "$f2" "$f1" >>"$file2"; done <"$file1"


在 ibus-libpinyin 的 dialog window 上,按 preference --> import ,然后选择上面程序做出来的 ysy.output.txt 档案即可。

《待补充》
上次由 Ping-Wu 在 2019-08-21 2:10,总共编辑 1 次。
头像
yq-ysy
论坛版主
帖子: 3710
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 79 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#2

帖子 yq-ysy » 2019-08-20 10:04

Ping-Wu 写了:
2019-08-19 18:08
我们这个论坛的版主(之一) yq-ysy 发明了一套单手笔顺输入法。更让我们感动的,他花了数年时间(?),夜以继日,利用 LibreOffice Calc 敲出了一个配合这个单手笔顺输入法的庞大的词库。不利用一下实在可惜!
没那么夸张……设计“单手笔顺输入法”的单字码表是花了一年半,词库就相对简单了,都是用 Python 脚本整理编排,拼音部分是采纳了其它输入法的共享词库,也就花了一个多月吧。

核心词库18万条,扩展词库165万条。很早之前也想推荐您把这词库添加进 ibus-libpinyin,但我不知道应该如何操作,加上没人编写“单手笔顺输入法”软件,有点泄气,就没心思去研究这事了。

看了一下,弄明白你这句脚本了,我试试全部合并到一起?总共183万条词组的检索,会不会影响输入法的速度?
头像
yq-ysy
论坛版主
帖子: 3710
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 79 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#3

帖子 yq-ysy » 2019-08-20 19:15

折腾了一下午,终于安装好了。
之前 Ping-Wu 的脚本有点问题(没有换行,导致检索不出词库里的词),多次尝试后,也修正了。
while read -r f1 f2 f3 f4; do printf '%s\t%s\n' "$f2" "$f1" >>"$file2"; done <"$file1"
这样就换行成功了。

ibus-libpinyin 及其183万条扩展词库,安装方法如下(以我用的 xfce 4 窗口管理器桌面为例):
(1)在终端里运行 sudo apt install ibus-libpinyin (软件中心里找不到 ibus-libpinyin)
(2)安装完成后,如果之前是使用 Fcitx 或者 Rime 输入法之类的,需要去系统设置的“语言支持”里改用ibus。
如果之前一直都是在使用ibus的,可以用鼠标右键点击任务栏上的语言图标,选择“重新启动”就能重启 ibus。
(3)试试 Super + 空格,或者 Ctrl + 空格,或者 Ctrl + Shift,调出输入法,切换选择“智能拼音”就是 ibus-libpinyin ,
然后看看能否打字,有必要的话就重启一下电脑。
启用ibus.png
(4)下载 183万词库——
百度网盘链接: https://pan.baidu.com/s/1exIPUJn3tqlEl6rOaJ9L4Q 提取码:yvmh
得到的文件是 ext_dict_1830000_words.txt.zip 大小 22M,鼠标右键解压缩,得到 ext_dict_1830000_words.txt 大小 69M。
(5)安装 183万词库——
鼠标右键点击 ibus-libpinyin 输入法浮动栏的“齿轮图标”,在弹出的“首选项”窗口里,选择“用户数据”标签页,
点击“导入”按钮,选择刚才解压缩的文件即可。
ibus-libpinyin用户词库.png
(6)然后看看能否打字,有必要的话,用鼠标右键点击任务栏上的语言图标,选择“重新启动”就能重启 ibus,或者重启一下电脑。
以下是我测试的,打出词库最后几行当中某个生僻的诗词。速度没有延迟,183万检索很快。
添加词库后的ibus-libpinyin输入法.png
现在希望得到改进的是:
(1)只打首字母,还不能检索出扩展词库里的词,例如上图的那句诗词,必须打全拼,有点麻烦。
(2)以前 Ping-Wu 说过,ibus-libpinyin 对单字的输入支持得不好,我的“单手笔顺输入法”里有 “单字_四合一_29685个.txt”码表,
里面有两种拼音,一个是带音标的(用于显示),另以一个是带数字的(用于输入拼音和音标编号),
一个字带有几个拼音,我在码表里是用“/”分隔开来的,例如:1 一 1 null null 1 200 1 300 yī/yí/yì yi1/yi2/yi4
现在问题是多音字怎么办?是一行一个字一个音?还是一行一个字多个音并列?不知道应该如何写脚本。
(如果这个问题解决了,我再更新词库,然后置顶这个帖子。)
(3)还是继续等待,希望有热心的程序员在 ibus-libpinyin 里加入使用数字小键盘输入我的“单手笔顺”码表,
实现一种输入法包含拼音、笔顺两种输入方式(不用切换)。
头像
Ping-Wu
帖子: 1154
注册时间: 2012-11-14 9:34
系统: Ubuntu 18.04/19.10
送出感谢: 3 次
接收感谢: 56 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#4

帖子 Ping-Wu » 2019-08-21 2:56

因为时间关系,暂时聊几句:
yq-ysy 写了:
2019-08-20 19:15
(1)只打首字母,还不能检索出扩展词库里的词,例如上图的那句诗词,必须打全拼,有点麻烦。
请见:
Screenshot from 2019-08-20 08-54-28.jpg
yq-ysy 写了:
2019-08-20 19:15
(3)还是继续等待,希望有热心的程序员在 ibus-libpinyin 里加入使用数字小键盘输入我的“单手笔顺”码表,
实现一种输入法包含拼音、笔顺两种输入方式(不用切换)。
使用 ibus-libpinyin 的人多了,才能引起程序员对使用数字小键盘输入“单手笔顺”的兴趣。这是阳谋也是唯一的办法。
头像
yq-ysy
论坛版主
帖子: 3710
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 79 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#5

帖子 yq-ysy » 2019-08-21 9:10

Ping-Wu 写了:
2019-08-21 2:56
因为时间关系,暂时聊几句:
yq-ysy 写了:
2019-08-20 19:15
(1)只打首字母,还不能检索出扩展词库里的词,例如上图的那句诗词,必须打全拼,有点麻烦。
请见:
哦,原来声母要打完整。我启用“模糊音”之后,可以用 nnsybxs 打出来那句诗了。
假设这句七言诗是要经常打的,它能不能在打出前四五个字母的时候,整句诗就排列在首位?(类似很多输入法的联想词频,前四字猜出后三字。)
头像
Ping-Wu
帖子: 1154
注册时间: 2012-11-14 9:34
系统: Ubuntu 18.04/19.10
送出感谢: 3 次
接收感谢: 56 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#6

帖子 Ping-Wu » 2019-08-22 2:25

yq-ysy 写了:
2019-08-21 9:10
哦,原来声母要打完整。我启用“模糊音”之后,可以用 nnsybxs 打出来那句诗了。
“孺子”( :Haha )可教也!有回馈,才有动力。大家死气沉沉的,大牛也都跑光了。
yq-ysy 写了:
2019-08-21 9:10
假设这句七言诗是要经常打的,它能不能在打出前四五个字母的时候,整句诗就排列在首位?(类似很多输入法的联想词频,前四字猜出后三字。)
ibus-libpinyin 新增了一个 “show suggestions” 功能,但还在萌芽阶段。

大家都知道,中文输入过程,主要就是一个 database 作业,任何一个输入法,用久了,累积个人的常用字/词库, database 充实了,就很好用。反过来说,任何其他的输入法,一开始因为没有自己的字/词库,一定不好用。这是一般人打死也不愿意考虑新输入法的主要原因。我从搜狗转到 ibus-pinyin,然后现在从 ibus-pinyin 转到 ibus-libpinyin,其实都是有原因,都不是自愿的(involuntary)。ibus-libpinyin 加了新的词库后,非常好用(snappy)。当然啦,越用就会越好用,这也算是一个投资吧。非常好的投资!

这个 database 的输入参数,可以是拼音字母,当然也可以是笔划代码。ibus-pinyin (ibus-libpinyin 的前身)也有笔划输入的基本架构,但没有人注意。
头像
Ping-Wu
帖子: 1154
注册时间: 2012-11-14 9:34
系统: Ubuntu 18.04/19.10
送出感谢: 3 次
接收感谢: 56 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#7

帖子 Ping-Wu » 2019-09-10 22:48

yq-ysy 写了:
2019-08-20 19:15
(2)以前 Ping-Wu 说过,ibus-libpinyin 对单字的输入支持得不好
ibus-libpinyin 对单字的输入支持得不好,原因是预设的字库里,所有单字起初都派定统一的频率参数。用久了以后,常使用单字频率参数就会往上调整,下次用就快多了。这是非常简单大家可以做到最基本的事,没有人愿意做任何贡献。

如果不是单字而是 词/句 的话,输入的 data 就比较 unique,常常一打马上就出来。但前提是输入的词/句必须先存在该输入法的 database 里,这就是为什么 引入单手笔顺输入法词库可以大大的加强 ibus-libpinyin。用久了以后,这个 “加强版” 词库里的频率参数得到适当的调整,应该可以比搜狗拼音还快,但没有后者(严重)的缺点。

如果词库真正成熟了,ibus-libpinyin 还可以把 智能功能 关掉,整个中文输入就只是 database (sqlite) 作业,更快。
头像
yq-ysy
论坛版主
帖子: 3710
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 79 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#8

帖子 yq-ysy » 2019-09-11 10:56

Ping-Wu 写了:
2019-09-10 22:48
yq-ysy 写了:
2019-08-20 19:15
(2)以前 Ping-Wu 说过,ibus-libpinyin 对单字的输入支持得不好
ibus-libpinyin 对单字的输入支持得不好,原因是预设的字库里,所有单字起初都派定统一的频率参数。用久了以后,常使用单字频率参数就会往上调整,下次用就快多了。这是非常简单大家可以做到最基本的事,没有人愿意做任何贡献。

如果不是单字而是 词/句 的话,输入的 data 就比较 unique,常常一打马上就出来。但前提是输入的词/句必须先存在该输入法的 database 里,这就是为什么 引入单手笔顺输入法词库可以大大的加强 ibus-libpinyin。用久了以后,这个 “加强版” 词库里的频率参数得到适当的调整,应该可以比搜狗拼音还快,但没有后者(严重)的缺点。

如果词库真正成熟了,ibus-libpinyin 还可以把 智能功能 关掉,整个中文输入就只是 database (sqlite) 作业,更快。
我的单字txt码表里面,每个单字都有字频,能不能把这个字频转换添加到 ibus-libpinyin 的单字默认字频里?
这样即使 ibus-libpinyin 暂时没能实现笔顺输入,也可以先改善拼音的单字输入。
头像
Ping-Wu
帖子: 1154
注册时间: 2012-11-14 9:34
系统: Ubuntu 18.04/19.10
送出感谢: 3 次
接收感谢: 56 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#9

帖子 Ping-Wu » 2019-09-11 12:38

yq-ysy 写了:
2019-09-11 10:56
Ping-Wu 写了:
2019-09-10 22:48
yq-ysy 写了:
2019-08-20 19:15
(2)以前 Ping-Wu 说过,ibus-libpinyin 对单字的输入支持得不好
ibus-libpinyin 对单字的输入支持得不好,原因是预设的字库里,所有单字起初都派定统一的频率参数。用久了以后,常使用单字频率参数就会往上调整,下次用就快多了。这是非常简单大家可以做到最基本的事,没有人愿意做任何贡献。

如果不是单字而是 词/句 的话,输入的 data 就比较 unique,常常一打马上就出来。但前提是输入的词/句必须先存在该输入法的 database 里,这就是为什么 引入单手笔顺输入法词库可以大大的加强 ibus-libpinyin。用久了以后,这个 “加强版” 词库里的频率参数得到适当的调整,应该可以比搜狗拼音还快,但没有后者(严重)的缺点。

如果词库真正成熟了,ibus-libpinyin 还可以把 智能功能 关掉,整个中文输入就只是 database (sqlite) 作业,更快。
我的单字txt码表里面,每个单字都有字频,能不能把这个字频转换添加到 ibus-libpinyin 的单字默认字频里?
这样即使 ibus-libpinyin 暂时没能实现笔顺输入,也可以先改善拼音的单字输入。
我没有注意到单字txt码表里面的字频。

字频读进去以后 (定为 f3 ),把旧的指令稍微改成:

do printf '%s\t%s\t\%s\n' "$f2" "$f1" "$f3"

就可以把 字频参数放到 ibus-libpinyin 词库了。

这是一个相当令人振奋的进展!

(待续)
头像
Ping-Wu
帖子: 1154
注册时间: 2012-11-14 9:34
系统: Ubuntu 18.04/19.10
送出感谢: 3 次
接收感谢: 56 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#10

帖子 Ping-Wu » 2019-09-11 12:42

yq-ysy 写了:
2019-09-11 10:56
Ping-Wu 写了:
2019-09-10 22:48
yq-ysy 写了:
2019-08-20 19:15
(2)以前 Ping-Wu 说过,ibus-libpinyin 对单字的输入支持得不好
ibus-libpinyin 对单字的输入支持得不好,原因是预设的字库里,所有单字起初都派定统一的频率参数。用久了以后,常使用单字频率参数就会往上调整,下次用就快多了。这是非常简单大家可以做到最基本的事,没有人愿意做任何贡献。

如果不是单字而是 词/句 的话,输入的 data 就比较 unique,常常一打马上就出来。但前提是输入的词/句必须先存在该输入法的 database 里,这就是为什么 引入单手笔顺输入法词库可以大大的加强 ibus-libpinyin。用久了以后,这个 “加强版” 词库里的频率参数得到适当的调整,应该可以比搜狗拼音还快,但没有后者(严重)的缺点。

如果词库真正成熟了,ibus-libpinyin 还可以把 智能功能 关掉,整个中文输入就只是 database (sqlite) 作业,更快。
我的单字txt码表里面,每个单字都有字频,能不能把这个字频转换添加到 ibus-libpinyin 的单字默认字频里?
这样即使 ibus-libpinyin 暂时没能实现笔顺输入,也可以先改善拼音的单字输入。
我没有注意到单字txt码表里面的字频。

字频读进去以后 (定为 f3 ),把旧的指令稍微改成:

do printf '%s\t%s\t\%s\n' "$f2" "$f1" "$f3"

就可以把 字频参数放到 ibus-libpinyin 词库了。

这是一个相当令人振奋的进展!

(待续)
头像
yq-ysy
论坛版主
帖子: 3710
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 79 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#11

帖子 yq-ysy » 2019-09-11 14:59

Ping-Wu 写了:
2019-09-11 12:38
我没有注意到单字txt码表里面的字频。
字频读进去以后 (定为 f3 ),把旧的指令稍微改成:
do printf '%s\t%s\t\%s\n' "$f2" "$f1" "$f3"
就可以把 字频参数放到 ibus-libpinyin 词库了。
这是一个相当令人振奋的进展!
(待续)
如果使用的是“单字_六全码_29685个.txt”或者“单字_笔顺码_29685个.txt”,那么字频参数是最后一列,也就是第 5 列,f5。
如果使用的是“单字_四合一_29685个.txt”,其中第 7 行和第 9 列分别是“六全码”和“笔顺码”的字频,只使用 f7 或者 f9 一个就行。
注意:我这个字频是按笔顺输入的使用频率来排列的,所以用在拼音里,有些字也许会排列不正确(但大部分应该都适用)。

因为汉字有很多是多音字,所以在拼音输入法里,又牵涉到“同一个汉字在另一个拼音里的使用频率”问题。
我的“单字_四合一_29685个.txt”码表里带有拼音,其中第 10 列是显示用的拼音(带音标),第 11 列输入用的拼音(带音标序号)
例如:“见”这个字,第10列是: jiàn/jian/xiàn ,第 11列是:jian4/jian0/xian4
显然,输入 jian4 时,常用的“见”字应该排在前面,而输入xian4 时,排在前面的应该是“现”字,“见”字只用在古诗“风吹草低见牛羊”上。
jian0 用得就更少了。因此,如果是按拼音来排列字频,理论上一个字的三个发音,还应该为每个发音再列一个字频。

笔顺输入的单字重码很少,所以几乎遇不到这种问题,而且有重码的那些字,我也早已排好了字频。
例如:“人”和“入”,都是一撇一捺,当然是“人”的字频排在最前面啦。
笔顺输入的词组可以说几乎是 0 重码,笔画越多,重码越少。相对于拼音输入,优势就体现出来了,不用翻页选择,省事啊。
哈哈,为什么说“几乎”?词组还是有几个重码的,例如:人口,入口。
就算有重码,也不会重好几个,最多重一二个,还没见过重三个的,不会像拼音那样,翻了好几页还没找到要用的字词。

还有一个问题,就是,同音字,是否需要拆分、排列,才能导入 ibus-libpinyin 的码表?
也就是说,“见”这个字,第 11列是:jian4/jian0/xian4 是否需要拆分成三行?
见 jian4
见 jian0
见 xian4
还是 ibus-libpinyin 的码表有它自己规定的同音字分隔符,只要转换一下就行?
例如: 见 jian4'jian0'xian4 ?

-------------------

最后,我看到之前说的 德国网友 mike fabian,他开发有一个 ibus-typing-booster,
https://github.com/mike-fabian/ibus-typing-booster
支持多种语言,也支持小键盘输入,不知道能不能改造用来实现“单手笔顺输入法”?
之前在他的 ibus-table 项目中和他的交流出现了障碍,他不再答复我了,所以我也不好意思再向他提要求。
头像
Ping-Wu
帖子: 1154
注册时间: 2012-11-14 9:34
系统: Ubuntu 18.04/19.10
送出感谢: 3 次
接收感谢: 56 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#12

帖子 Ping-Wu » 2019-09-12 9:47

yq-ysy 写了:
2019-09-11 14:59
如果使用的是“单字_四合一_29685个.txt”,其中第 7 行和第 9 列分别是“六全码”和“笔顺码”的字频,只使用 f7 或者 f9 一个就行。
“字频” 是怎么定义的?我看了一下“单字_四合一_29685个.txt” 这个档案,绝大多数单字的字频是 “200”(或 300),有极少数是 201, 202, 或 203,但跟使用的频率好像不太相符合?
头像
yq-ysy
论坛版主
帖子: 3710
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 79 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#13

帖子 yq-ysy » 2019-09-12 14:16

Ping-Wu 写了:
2019-09-12 9:47
yq-ysy 写了:
2019-09-11 14:59
如果使用的是“单字_四合一_29685个.txt”,其中第 7 行和第 9 列分别是“六全码”和“笔顺码”的字频,只使用 f7 或者 f9 一个就行。
“字频” 是怎么定义的?我看了一下“单字_四合一_29685个.txt” 这个档案,绝大多数单字的字频是 “200”(或 300),有极少数是 201, 202, 或 203,但跟使用的频率好像不太相符合?
定义的原则是:数字越小,使用频率越高(降序)。
输入法软件的开发者,可以按自己定义的字频规则,采用数学算法,重新编排、或者重新排序字频(改为升序)。

我设计的“单手笔顺输入法”包含有三种编码,设想中的输入法程序是混用这三种编码的,不需要切换模式。
精简码是用于最常见的几千个汉字,没有重码,所以字频全部是 100
六全码包含了全部近3万汉字,字频是200-299
笔顺码也包含了全部近3万汉字,是老老实实的一笔一画,用得最少,字频是300-399

例如:汉字一竖“丨”(念作“竖、滚”)和竖勾“亅”(念作“决”)的六全码、笔顺码也都是 2 ,
但是汉字中以一竖开头的字,用得最多得是“国”这个字,
“国”这个字的六全码是 251141 ;笔顺码是 25112141 ;都是以 2 开头,所以我把精简码 2 分配给“国”使用,
因此,当用户输入 2 时,输入法程序检索“混排_三合一”码表或者“单字_四合一”码表得到得结果是:

国,2,100 ;
丨,2,200 ;
亅,2,201 ;
丨,2,300 ;
亅,2,301 ;
输入法浮动拦显示的就应该是:(1)国(2)丨(3)亅(4)丨(5)亅

同时,为了让用户明白,他在浮动栏选择的那一个字是属于哪一种编码?
所以我在使用说明中建议:精简码(1)使用全黑色,六全码(2、3)使用炭灰色,笔顺码(4、5)使用灰色
这样,用户就一目了然。(请参阅 icon 目录下的 Sample.jpg 悬浮栏设计功能说明,图中是以输入“求”字为例。)

同理,如果用户在 2(竖) 后面继续输入 5(折) 时,即 25,输入法浮动拦显示的应该是:(1)同(2)巾(3)冂(4)巾(5)冂
我设想中的悬浮栏第二行,有“边旁部首编码”提示,或者“后续编码”提示,所以用户不用背字根,不用背编码表,会写字的就自然会打字。

又仔细想了一下,也许我这个笔顺字频并不适用于拼音字频。
例如:“一”这个字,就是输入“1”,但这个“1”是属于六全码,不属于精简码(因为只有一位数字,直接用就行,不是2~6位数精简为1位数)。
因为“一”这个字的字频是200,但是“衣”这个字——六全码 413534 ,字频 201,它有精简码 413(6位数精简为3位数),字频100 ,
所以如果按拼音输入 yi ,调用我的笔顺字频来排列,“衣”这个字就排在“一”前面了,这是不对的。如果只按六全码排列字频,则是“碰巧对了”。

图片
头像
Ping-Wu
帖子: 1154
注册时间: 2012-11-14 9:34
系统: Ubuntu 18.04/19.10
送出感谢: 3 次
接收感谢: 56 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#14

帖子 Ping-Wu » 2019-09-16 2:30

yq-ysy 写了:
2019-09-12 14:16
输入法软件的开发者,可以按自己定义的字频规则,采用数学算法,重新编排、或者重新排序字频(改为升序)。
ibus-libpinyin 所用字频(或词频)参数的数据库,必须靠使用者自己长期使用来建立。因为 ibus-libpinyin 不牵涉到云端输入,无法像搜狗强行收集使用者输入的数据,最好的办法只有经由类似 GitHub 方式让有心改善开源中文输入的人把个人建立下来的字词库(主要是字/词/出现的频率),整合起来。不过照目前的情况,任何计划都会只是浪费时间。
头像
yq-ysy
论坛版主
帖子: 3710
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 79 次

Re: 利用 yq-ysy 的单手笔顺输入法词库来“大大的”加强 ibus-libpinyin

#15

帖子 yq-ysy » 2019-09-16 7:47

Ping-Wu 写了:
2019-09-16 2:30
yq-ysy 写了:
2019-09-12 14:16
输入法软件的开发者,可以按自己定义的字频规则,采用数学算法,重新编排、或者重新排序字频(改为升序)。
ibus-libpinyin 所用字频(或词频)参数的数据库,必须靠使用者自己长期使用来建立。因为 ibus-libpinyin 不牵涉到云端输入,无法像搜狗强行收集使用者输入的数据,最好的办法只有经由类似 GitHub 方式让有心改善开源中文输入的人把个人建立下来的字词库(主要是字/词/出现的频率),整合起来。不过照目前的情况,任何计划都会只是浪费时间。
如果想集中力量办大事,还是需要一个能发工资公司,才能调动起人力。
但公司必然以盈利为目的,除非是为了打广告,否则绝对不会去做一个公益项目。
所以,自由市场经济并不是能解决一切问题的完美良药。

换个角度想,如果我说:未来“单手笔顺输入法”能取代“搜狗拼音输入法”的市场统治地位,那么就会有很多公司抢着来做!
我之前给很多输入法的开发者都这么说过,可惜,没人信。
也许,应该改为给向老板说说?他们的市场眼光可能比程序员更长远一些,谁有搜狐老总张朝阳的联系方法?
回复

回到 “字体美化和中文支持”