鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

系统字体配置、中文显示和输入法问题
回复
hongyan30
帖子: 7
注册时间: 2022-08-10 22:15
系统: windows
送出感谢: 2 次
接收感谢: 1 次

鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#1

帖子 hongyan30 » 2022-08-14 6:38

自从发布鸿雁拼音后,得到不少网友的热心反馈。在群体智慧的帮助下,得到不少有益的改进。

在一个出版业的专业论坛,有几个网友给出回复:
  • 有五笔版吗?只会这个………………
  • 重码太多,打字快吗?
  • 习惯了五笔。现在用的是百度输入法。。。能五笔拼音混合输入吗
著名的博主善用佳软推崇极点五笔,CPC中文印刷社区站长也提到用了十年的极点五笔,知乎上不少网友都说极点五笔是他使用时间最长的输入法。 现在的情况是极点五笔已经停止更新,对win 10兼容性不好。 CPC中文印刷社区站长自己打造了一个黄狗五笔,其他的网友有的使用精灵五笔,有的使用冰凌五笔作为继任者。

对单个汉字、单个词语的频率使用220亿字的语料库得出精确的词频数据,用于鸿雁拼音输入法的输入过程中的候选列表排序。 这个词库数据如果移植到五笔平台,会不会有更多受众呢?

我发现百度贴吧中对拼音输入法的关注比较低,而与五笔相关的吧,感兴趣的人比较多。我到医院就医,看到挂号处的医生使用的是五笔输入法。 在前面提到的出版业的专业论坛上,网友给出的几个回复比较犀利,指出拼音输入法重码多的缺点。 虽然230万的词库足以覆盖日常工作生活的绝大部分词语组合,拼音重码多的缺点还是无法从根本上解决录入速度的问题。

看来,在专业的文字录入领域,还是五笔一家独大。对文字录入有高速化职业化需求的从业者中,五笔可能是唯一的选择。

既然有需求,经过2天时间的紧张制作,鸿雁五笔诞生了。

之前有制作鸿雁拼音码表的相关脚本,输入法框架、词频数据都是现成的,只需要改为五笔码表即可。

移植工作非常顺利,用perl语言处理文本,感觉so easy。拼音存在多音字,而汉字->五笔编码对是唯一的,处理难度简单一些。

根据(98五笔资源库/五笔小筑)的说法,“86、98、新世纪、这三版五笔中,98版是拆字最为和谐自洽,字根数量最多,击键协调性最好,对大字符集适应最好的一版。” 并提到“98版五笔早已无专利问题”,原因是王码公司没有缴纳专利费用,2004年专利权视为放弃,百度五笔相关法务团队曾经做过详尽的专利调查。

万一哪天王码表公司补缴专利费,又重新获得98版五笔专利权呢?目前市面上另一个现实是,windows自带五笔输入法,让86版的五笔使用者最为广泛。

86版的五笔早已没有版权问题,感谢联想集团,给网友带来免费的午餐。

鸿雁五笔采用的是86版的王码五笔方案。 最新版的王码五笔,支持输入27533个汉字。 鸿雁五笔输入法可以输入的汉字有41442个。增补的码表主要来源于CPC中文印刷社区站长在制作黄狗输入法时对生僻字的整理工作,黄狗输入法支持的汉字有10万多。

为什么不全部支持?这里讲一下原因。

制作鸿雁拼音时词频来自以下语料库:
  • 百度百科约560万个词条(14.5GB,约59亿字)
  • 维基百科约400万个词条(10.1GB,约40亿字)
  • 微博语料(7.4GB,约30亿字)
  • 微信公众号语料(2.9GB,约12亿字)
  • 新闻语料(12.6GB,约51亿字)
  • 1946年-2003年人民日报全部数据纯文本(3.1GB,约11.6亿字)
  • 联合国平行语料库中文部分(1.4GB,约5.5亿字)
  • 殆知阁古代文献txt大全集(4.8GB,约17亿字)
在220亿字的典型语料库中,使用的汉字仅有3.8万个。出现次数3次及以上的汉字只有2.5万个。

鸿雁五笔输入法支持的的41442个汉字,是含有拼音数据的。一个拼音都找不到的汉字被使用的概率是多少?应该非常低,没有读音意味着这个字几乎没有人用。 4.1万的汉字已经足够覆盖日常工作生活中所需所有汉字。

我不是五笔输入法使用者,请专业人士品鉴一下码表是否合适。

单个字的码表:
〇    llll
㐀    gjgg
㐁    glwi
㐂    aaab
㐄    ahk
㐅    qty
饤    qnsh
饥    qnmn
饦    qnta
饧    qnnr
饨    qngn
饩    qnrn
饪    qntf
饫    qntd
饬    qntl
饭    qnrc
饮    qnqw

2个字到4个字的词语码表:

特仑    trff wxb
特仑苏    trff wxb alwu
特他    trff wbn
特代    trff way
特令    trff wycu
特以    trff nywy
特以及    trff nywy eyi
特们    trff wun
特价    trff wwjh
特价只    trff wwjh kwu
特价只要    trff wwjh kwu svf
特价房    trff wwjh ynye
特价机    trff wwjh smn
特价机票    trff wwjh smn sfiu
特价秒杀    trff wwjh titt qsu
特价车    trff wwjh lgnh
特任    trff wtfg
特企    trff whf
特伊    trff wvtt
特伍    trff wgg
特伍德    trff wgg tfln
特伐    trff way
特优    trff wdnn
特优势    trff wdnn rvyl
特会    trff wfcu
特伟    trff wfnh
特传    trff wfny
特伦    trff wwxn
特伦扎诺    trff wwxn rnn yadk
今天一个    w g g w
今天一大    w g g d
今天一天    w g g g
今天一定    w g g p
今天一早    w g g j
今天上午    w g h t
今天上班    w g h g
今天下之    w g g p
今天下午    w g g t
今天不回家    w g g l p
今天不是    w g g j
今天不苦    w g g a
今天不起    w g g f
今天中午    w g k t
今天一个    wynb gdi ggll whj
今天一大    wynb gdi ggll dddd
今天一天    wynb gdi ggll gdi
今天一定    wynb gdi ggll pghu
今天一早    wynb gdi ggll jhnh
今天三    wynb gdi dggg
今天上    wynb gdi hhgg
今天上午    wynb gdi hhgg tfj
今天上班    wynb gdi hhgg gytg
今天下    wynb gdi ghi
今天下之    wynb gdi ghi pppp
今天下午    wynb gdi ghi tfj
今天不    wynb gdi gii

四个字以上的词语码表:

国际奥林匹克委员会    l b t s a d t k w
国际奥林匹克委员会主席    l b t s a d t k w y y
国际奥林匹克委员会全体会议    l b t s a d t k w w w w y
国际奥林匹克委员会委员    l b t s a d t k w t k
国际奥林匹克数学竞赛    l b t s a d o i u p

最大支持16个字的词语码表:

一致性高速缓存非均匀存储访问模型    g g n y g x d h f q d w y u s g
三区革命政府政治文化活动中心旧址    d a a w g y g i y w i f k n h f
三方协商促进实施国际劳工标准公约    d y f u w f p y l b a a s u w x
三角齿马先蒿三角齿亚种三角齿变种    d q h c t a d q h g t d q h y t
上海佳豪船舶工程设计股份有限公司    h i w y t t a t y y e w d b w n
上海图书馆上海科学技术情报研究所    h i l n q h i t i r s n r d p r
上海市实有人口服务和管理若干规定    h i y p d w k e t t t g a f f p
上海神开石油化工装备股份有限公司    h i p g d i w a u t e w d b w n
上海耀华皮尔金顿玻璃股份有限公司    h i i w h q q g g g e w d b w n
上海锦江国际酒店发展股份有限公司    h i q i l b i y n n e w d b w n
世界自然保护联盟濒危物种红色名录    a l t q w r b j i q t t x q q v
东北抗日暨爱国自卫战争烈士纪念塔    a u r j v e l t b h q g f x w f
中华人民共和国中央人民政府委员会    k w w n a t l k m w n g y t k w

词语码表规则如下: 2-3个字词语只能使用单字的全部码表输入,不能使用简写。 4个字的词语可以使用单字的全部码表输入,也可以使用码表首字母组合输入。 5-16个字的词语只可以使用码表首字母组合输入。

这样的选择是因为,五笔编码单字使用3-4个字母,如果2-3个字使用五笔编码的的一个字母或者前两个字母作为简略输入,会出现大量重复的码表。 4个字及其以上的词语对应的拉丁字母组合重码率已经很低,可以使用简略输入。

4个字的简略码表有4个字符,可能会与单字的4个字符竞争,不过不用担心。本输入法的优先级排序来自220亿字典型语料库统计数据。一般情况下, 词语出现的频率低于单字的频率。只要不是生僻字或者繁体字,单字排名靠前,词语排名靠后,不会影响输入体验。

上图

86版五笔编码中,单个字使用3-4个拉丁字母

图片

图片

两个字的词语输入

图片

三个字的词语输入

图片

四个字的词语输入

图片

四个字,类似拼音输入法的简拼的输入方式,使用五笔编码的第一个字母组合输入

图片

唐诗三百首、宋词三百首、老子道德经、论语、诗经、李白诗句全集可以信手拈来

图片

16个字的词语

图片

百度百科的词条标题,这样的词语有50万个

图片

五笔编码仅适用25个字母键,“z”键没有使用。 如果记不得单字的码表,可以在先输入“z”,进入临时拼音模式,再输入拼音

图片

在临时拼音模式可以反查五笔码表

图片

临时拼音模式下,支持简拼输入,临时拼音模式调用的是鸿雁拼音库,同样拥有230万词库。

图片

软件在安卓平台也有移植版本 五笔简码输入词语

图片
图片

安卓平台进入临时拼音模式

图片

鸿雁输入法安装后默认启用的是鸿雁拼音·全拼模式。 在鸿雁输入法中切换到鸿雁五笔的方法:

windows平台

图片
图片
图片

安卓平台

图片

软件压缩包中“五笔86版全码(41442个汉字).txt”文件包含全部的单字码表。供有需要的朋友查阅。 本软件开源免费,采用的rime系列输入法框架,这些框架都是开源的。码表、配置文件是纯文本格式。

有人在网络上发帖,希望极点五笔作者出山,他愿意付费,可惜现在还没有等到杜先生回应。

希望鸿雁五笔能够成为新时代的极点五笔。

下载链接: https://hong-yan.lanzouw.com/b00vvkivc 密码:1234
这些用户感谢了作者 hongyan30 于这个帖子:
debug4 (2022-08-14 22:06)
评价: 3.7%
homtoo
帖子: 288
注册时间: 2006-12-06 11:52
送出感谢: 0
接收感谢: 10 次
联系:

Re: 鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#2

帖子 homtoo » 2022-08-15 16:17

专利法第四十四条第一款第一项规定,没有按照规定缴纳年费的,专利权在期限届满前终止。专利法实施细则第九十八条规定,授予专利权当年以后的年费应当在上一年度期满前缴纳。专利权人未缴纳或者未缴足的,国务院专利行政部门应当通知专利权人自应当缴纳年费期满之日起6个月内补缴,同时缴纳滞纳金;滞纳金的金额按照每超过规定的缴费时间1个月,加收当年全额年费的5%计算;期满未缴纳的,专利权自应当缴纳年费期满之日起终止。
建议输入法包含98版五笔。
这些用户感谢了作者 homtoo 于这个帖子:
hongyan30 (2022-08-15 20:43)
评价: 3.7%
sxgpic
帖子: 71
注册时间: 2013-12-13 6:57
送出感谢: 1 次
接收感谢: 3 次

Re: 鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#3

帖子 sxgpic » 2022-08-15 16:42

搞一个 ibus 版吧,如果真是用了那么多语料库,词频做得那么好,就把它带到 Linux 平台上,在 github 开个项目,争取被 Ubuntu 采纳为官方默认的中文输入法。

目前我自用的 ibus-libpinyin 修改版,词汇数量是 310 万,词频嘛,就比较差。但是用的还好。
这些用户感谢了作者 sxgpic 于这个帖子:
hongyan30 (2022-08-15 20:43)
评价: 3.7%
头像
yq-ysy
论坛版主
帖子: 4302
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 99 次

Re: 鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#4

帖子 yq-ysy » 2022-08-15 23:54

以前收集的拼音词库,有太多的同音错别字,不知道应该如何解决?
如果楼主的这个词库是己经剔除了错别字的正确词库,那就太好了~~
hongyan30
帖子: 7
注册时间: 2022-08-10 22:15
系统: windows
送出感谢: 2 次
接收感谢: 1 次

Re: 鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#5

帖子 hongyan30 » 2022-08-16 1:57

yq-ysy 写了:
2022-08-15 23:54
以前收集的拼音词库,有太多的同音错别字,不知道应该如何解决?
如果楼主的这个词库是己经剔除了错别字的正确词库,那就太好了~~
本输入法自带的拼音库,可以毫不夸张地说,是你能在互联网上找到的最准确的拼音库。


2。拼音注音芜杂,很多拼音下正确的错误的都有,容错拼音过多,如:
|长春市朝阳区|chang chun shi chao yang ou|1000|
|—|—|—|
|长春市朝阳区|chang chun shi chao yang qu|1000|
|长春市朝阳区|chang chun shi zhao yang ou|1000|
|长春市朝阳区|chang chun shi zhao yang qu|1000|
|长春市朝阳区|zhang chun shi chao yang ou|1000|
|长春市朝阳区|zhang chun shi chao yang qu|1000|
|长春市朝阳区|zhang chun shi zhao yang ou|1000|
|长春市朝阳区|zhang chun shi zhao yang qu|1000|

你提到的拼音错误问题,其实是拼音中多音字拼音标注选择问题,只需要保证有正确的拼音就行了,既然现在没有既准确又大又全的词语拼音库,暴力穷举是唯一可行的办法 。
头像
yq-ysy
论坛版主
帖子: 4302
注册时间: 2008-07-19 12:44
来自: 广西(桂)南宁(邕)
送出感谢: 0
接收感谢: 99 次

Re: 鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#6

帖子 yq-ysy » 2022-08-16 10:18

hongyan30 写了:
2022-08-16 1:57
yq-ysy 写了:
2022-08-15 23:54
以前收集的拼音词库,有太多的同音错别字,不知道应该如何解决?
如果楼主的这个词库是己经剔除了错别字的正确词库,那就太好了~~
本输入法自带的拼音库,可以毫不夸张地说,是你能在互联网上找到的最准确的拼音库。

你提到的拼音错误问题,其实是拼音中多音字拼音标注选择问题,只需要保证有正确的拼音就行了,既然现在没有既准确又大又全的词语拼音库,暴力穷举是唯一可行的办法 。
我说的不是“拼音错误”,而是“汉字错误”。

例如,输入:mlmh
正确的成语应该是:美轮美奂
错别字成语则变成:美仑美奂、美伦美奂、美轮美焕

类似的情况还有很多,几乎每个成语、甚至二字三字普通词语都掺杂有错别字,这是拼音输入法的一大通病。
我是做“单手笔顺输入法的”,打字像写字一样,所以用笔顺输入法打词组就不会出现同音的错别字。
如果你的词库已经做了这类纠正,那就太好了。

理论上,如果各大输入法厂商能在云端服务器上,设置一个自动纠错的功能,那就能纠正很多拼音错别字。
可惜,现在各大输入法的厂商都没做这个事,只是简单地把用户数据不分对错全部上传云端,然后按使用频率下放。
这样就造成一些是故意用“谐音字”自造的恶搞网络词汇大行其道,严重污染了正常的语言环境,恶心死了。
hongyan30
帖子: 7
注册时间: 2022-08-10 22:15
系统: windows
送出感谢: 2 次
接收感谢: 1 次

Re: 鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#7

帖子 hongyan30 » 2022-08-16 12:02

yq-ysy 写了:
2022-08-16 10:18
hongyan30 写了:
2022-08-16 1:57
yq-ysy 写了:
2022-08-15 23:54
以前收集的拼音词库,有太多的同音错别字,不知道应该如何解决?
如果楼主的这个词库是己经剔除了错别字的正确词库,那就太好了~~
本输入法自带的拼音库,可以毫不夸张地说,是你能在互联网上找到的最准确的拼音库。

你提到的拼音错误问题,其实是拼音中多音字拼音标注选择问题,只需要保证有正确的拼音就行了,既然现在没有既准确又大又全的词语拼音库,暴力穷举是唯一可行的办法 。
我说的不是“拼音错误”,而是“汉字错误”。

例如,输入:mlmh
正确的成语应该是:美轮美奂
错别字成语则变成:美仑美奂、美伦美奂、美轮美焕

类似的情况还有很多,几乎每个成语、甚至二字三字普通词语都掺杂有错别字,这是拼音输入法的一大通病。
我是做“单手笔顺输入法的”,打字像写字一样,所以用笔顺输入法打词组就不会出现同音的错别字。
如果你的词库已经做了这类纠正,那就太好了。

理论上,如果各大输入法厂商能在云端服务器上,设置一个自动纠错的功能,那就能纠正很多拼音错别字。
可惜,现在各大输入法的厂商都没做这个事,只是简单地把用户数据不分对错全部上传云端,然后按使用频率下放。
这样就造成一些是故意用“谐音字”自造的恶搞网络词汇大行其道,严重污染了正常的语言环境,恶心死了。



图片


这个用大规模词频统计就可以做到
hongyan30
帖子: 7
注册时间: 2022-08-10 22:15
系统: windows
送出感谢: 2 次
接收感谢: 1 次

Re: 鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#8

帖子 hongyan30 » 2022-08-17 1:28

sxgpic 写了:
2022-08-15 16:42
搞一个 ibus 版吧,如果真是用了那么多语料库,词频做得那么好,就把它带到 Linux 平台上,在 github 开个项目,争取被 Ubuntu 采纳为官方默认的中文输入法。

目前我自用的 ibus-libpinyin 修改版,词汇数量是 310 万,词频嘛,就比较差。但是用的还好。
ubuntu貌似使用的是ibus定制版,无法启动ibus-rime

官方自带的就是你提到的 ibus-libpinyin

linux mint倒是可以正常启动,看来这可能是是深度定制化的恶果。

deepin linux下fcitx-rime可以正常运行,deepin linux采用的是fcitx

最新版的ubuntu 安装fcitx5-rime可以正常使用,


linux平台只要内存足够大,可以支持一千万的词库。至于你说的成为 Ubuntu 采纳为官方默认的中文输入法,倒是没有这样的想法。主要卖点就是词库配置,输入法的框架开法权利都在别人手里。最多算是一个配置。如今Ubuntu 把 ibus-libpinyin作为官方中文输入法后, ibus 其他输入法都没法安装了。

有可能是当时的配置和现在的运行库不兼容。

我觉得吧,官方做一个简单的示例性质的拼音输入法就好了。
sxgpic
帖子: 71
注册时间: 2013-12-13 6:57
送出感谢: 1 次
接收感谢: 3 次

Re: 鸿雁五笔输入法(拥有230万词库及精确词频,支持拼音输入,立志成为新时代的极点五笔)

#9

帖子 sxgpic » 2022-08-17 14:40

hongyan30 写了:
2022-08-17 1:28
sxgpic 写了:
2022-08-15 16:42
搞一个 ibus 版吧,如果真是用了那么多语料库,词频做得那么好,就把它带到 Linux 平台上,在 github 开个项目,争取被 Ubuntu 采纳为官方默认的中文输入法。

目前我自用的 ibus-libpinyin 修改版,词汇数量是 310 万,词频嘛,就比较差。但是用的还好。
ubuntu貌似使用的是ibus定制版,无法启动ibus-rime

官方自带的就是你提到的 ibus-libpinyin

linux mint倒是可以正常启动,看来这可能是是深度定制化的恶果。

deepin linux下fcitx-rime可以正常运行,deepin linux采用的是fcitx

最新版的ubuntu 安装fcitx5-rime可以正常使用,


linux平台只要内存足够大,可以支持一千万的词库。至于你说的成为 Ubuntu 采纳为官方默认的中文输入法,倒是没有这样的想法。主要卖点就是词库配置,输入法的框架开法权利都在别人手里。最多算是一个配置。如今Ubuntu 把 ibus-libpinyin作为官方中文输入法后, ibus 其他输入法都没法安装了。

有可能是当时的配置和现在的运行库不兼容。

我觉得吧,官方做一个简单的示例性质的拼音输入法就好了。
我的做法是用自己做的 model 把 libpinyin 的词汇 model 全部替换掉,重新编译,制作成一个自定义的 libpinyin-data 包替换掉原来的。

你的词库也可以这样干。libpinyin 的 model 原始词库你拿下来看一看就明白了,依葫芦画瓢给它替换掉,做出来的输入法也挺好用,因为 libpinyin 采用了一些类似 sunpinyin 的算法,本来也不差,差的是词库、词频、语料库,你手握好东西,正好可以弥补它的短处。
回复