驿窗project 写了: ↑2022-02-25 12:46
yq-ysy 写了: ↑2022-02-24 17:18
那么接下来,我得研究写个Python脚本,对我的单字码表3万汉字进行逐一校验,查看每个汉字是否与正确的编码数据相匹配。
如果不匹配,去哪里找这个“正确的汉字”又成了问题,也许还必须借用 Windows 的字体文件。
嗯,工作量也蛮多的。
这个工作是什么内容,能不能再说具体一点,是汉字与utf码的对应么?
我昨晚加了个班,最后找到天珩字库,把天珩字库的四个字库文件放到我的~/.fonts目录后,然后把天珩字库的TH-Tshyn-P0 changgui设置为ibus候选词后,onehand输入法不再显示方块,我试了大概一分钟,一个方块都没看到。
另外,再打开onehand附带的one_hand.text.dict.yaml文件后,也没再看到有任何方块显示。
能够只用一个字体文件就解决显示问题,那当然很好。
不过,如之前帖子所说,能显示某个字,不等于这个字就是正确的的字。
所以,我设想中的Python脚本,就是读取码表里的每一个字,然后提取它的 Unicode 码,与我记录在Calc电子表格的编码作比较,
如果一致,那就是符合GB国家标准的,如果不一致,那就有可能是日韩或港澳台的用字,我就要在码表里改为正确GB国标汉字。
然后所有的词汇码表都要更新,重新生成一遍,以确保不存在错误的汉字。
此外,还要把扩展A区和另一个分区的汉字提取出来,单独作为一个“生僻字扩充码表”,
常见字只使用GB13000.1的二万零九百字就行,这很简单,我的电子表格己经分类有了,提取出来就行,词组用的也是这些字。
剩下的五万字可以放在另一个码表文件里,反正普通人也用不上——
——但每一个字我都要手工输入两个编码(六全码、笔顺码)并设定字频(相同的复杂偏旁部首,会有很多重码),
5万字,估计得花2年的时间。
现在经过了一年时间的使用经验,我还需要研究写个Python脚本整理现在的词库,
筛选出那些“谐音错别词“、以及”不常用、但干扰到常用词汇输入”的词语,剔除它们。
例如:
八个,就被错别词“入个”干扰了。
输入,就被不常用的词“输人”干扰了。
父亲,就被不常用的词“人亲”干扰了。
乱七八糟,就被谐音错别词“乱七八遭”干扰了。
这些正确的词和错误的词,笔顺编码都一样,本来正确的常用词组输入可以排在首位的,但被错误的词挤到后面去了。
所以我说,工作量还蛮多的。以我仅能写简单脚本的三脚猫编程水平,全部做完这些事,恐怕又是一年半载过去了。
现在有很多拼音输入法,都在研究提高输入效率的各种“算法”、云联想等。
我的“单手笔顺输入法”现在没有任何算法,单字和词组输入仅靠码表,准确性就己经能比“拼音输入法”高得多了。
但由于没有云词库、联想,所以一整句话的输入、长句子的输入是短板。
我现在打字时,就发现,在些字或词在输入时,代码其实是可以进一步“智能省略”的(因为没有重码),
目前Rime对拼音就有智能算法优化的支持,但对于以数字为编码的输入法,它就无法实现。
如果以后有程序员开发研究"单手笔顺输入法"的算法的话,那么“单手笔顺输入法”输入的效率会更高。
唉,不是程序员,想想当成个梦就算了。