首先,介绍一下背景:
之前多次说过,我正在做一个开源的笔顺输入法,现在单字码表已经完成,准备做词汇码表。
也得到一些开源程序员的劝诫,说不能盗用别人的码表,需要得到别人的同意或者原创的才能纳入开源库。
词库码表少则几万个词汇,多则几百万个词汇,
我想挑出一些最常用的词汇写个程序脚本加上我的笔顺编码,作为基础词库,其它的则以分类词库供人选用。
所以,我就想看看,其它的输入法的“常用词汇”一般都有哪些?
于是,网上搜索找到了一个——搜狗核心词库.7z
解压缩后,得到两个txt格式的词库(不带拼音,一个是7.7版,另一个是8.0版),每个版本都是4万6千个字词。
但仔细一挑选就发现,这个安装后的不联网的默认词库,从开源爱好者的角度来看,简直是没法用啊!
虽然它也许包括有搜狗根据数据统计得到的“使用频率最高”的一些词汇,但也掺进了许多垃圾,体现了搜狗三个方面的思想:
一是懒。
只要是用户敲得多的,不加辨识,一律纳入,不论错误断句、错别字词、谐音别字(拼音输入常见)统统收纳。
而且字词扩展的语句太多,挤占了其它词汇应当存在的空间。当然联网有云词库就不怕,但如果不连上网络就麻烦了。
例如:“你要”开头的有133条,“你还”开头的有152条,“我就”开头的有247条,像“你为什”这样半截词有很多。
二是贪。
著名的、知名的、有名的企业、产品、网站,录入一些常见的,也情有可原。
但是你搜索以“……网”为结尾的词看看,有几个?哦不,应该说“有几百个?”——几百个不算多是吧?
那么连带这些网站的分类导航也收录进去了,而且这些网站是某个不知道属于那个省的小城市的不出名的小网站,不奇怪吗?
房产、汽车的品牌名称更是一个都能不少,全国人民整天都在聊这些名称?输入这些品牌名称的频率能超过许多字词?
——这些词汇是更应该放入“云词库”才对的啊,为什么把它们放入了软件自带的默认字库?不用联网也能做广告了,是吧?
不知道“百度输入法、QQ输入法”有没有这样的情况?(“呵呵”二字我在这里能不能节省下来?)
三是脏。
这是第一点的延伸——懒人自然是没有公德心的,不会去主动做“净化环境”的事情的,懒得做嘛。其结果就是脏:
充满了各种污秽的粗口话、网络自造的新词歪词恶搞词、甚至还有一眼看上去就知道是色情网站名称等单词。
——你是想方便孩子们输入这些词?或者你是想孩子们在打其它词的时,提示栏里也冒出这些词汇?
不是说要用输入法来“完全屏蔽不良词汇,完全无法输入”,但你也不能让这些恶劣的词汇能“更方便地输入”啊。
例如一句侮辱别人母亲的骂人话,你只要不把它纳入输入法词汇中,让想骂人的人一个字一个字慢慢打,这样世界就可以安静许多了嘛。
——我也不怕大家转发这篇文章出去,最好让张朝阳看到,醒醒脑,改良改良。
(注意:不是要你改良核心词库的加密方法,相反,而是应该改良自带的默认词库并公开给大家看看!不就4万6千个单词嘛。)
——借用他参与的一个广告里说的台词:“不就一个破企业嘛。”最近电视台经常播放的。
--------------------- 2017-04-14 补充:为什么我讨厌360和百度 --------------------------
小学老师布置作业:“我们明天要学的课文里,提到一个典故‘烽火戏诸侯’,大家回家后预习预习,‘烽火戏诸侯’讲的是什么故事?不懂的可以上网百度一下,”小朋友很听话地回家上网百度了,然后笑话就来了——搜索到那么多个结果,哪个结果才是啊?问问各大搜索引擎的掌门人,你们希望自己的孩子搜索到这个结果吗?
用事实说话,国内可以访问到的各大搜索引擎(时间2017年04月14日)搜索“烽火戏诸侯”得到结果的对比截图。
附件:
烽火戏诸侯.jpg [ 495.63 KiB | 被浏览 1005 次 ]
360搜索到的首页没有解释这个典故的文字结果,第1项放的是自己的360百科,但却是在介绍一个网络作家,第2项是相关新闻讨论,第5项有相关图片,彻底体现了360的历史价值观(对历史根本不屑一顾)。
百度搜索到的首页第4项才是解释这个典故的文字结果,第1项放的是自己的百度百科,但却是在介绍一个网络作家,下面有个小字“历史典故”,完全体现了百度的历史价值观(历史必须排在网络名人之后)。
必应搜索到的首页解释这个典故虽然排在第3项,但前2项目用不同颜色背景表明那些是广告,观众可以不费力跳过,直接看到“实际”的第一位置是互动百科的解释,而且第3项收录的百度百科也没弄混,把典故放前,那个同名网络作家放后,算个良心商家(广告可以有,但要划分清楚界线)。
搜狗搜索到的首页解释这个典故排在第1项,是来自互动百科的解释,第4项是取自360个人图书馆(为什么360自己不搜索自己?),其它的依然大部分是那个同名网络作家的链接。
国搜搜索到的首页解释这个典故也排在第1项,放的是自己的国搜百科,后面的搜索结果才是相关游戏新闻,是所有搜索引擎中出现那个同名网络作家最少的(也许是因为这个搜索引擎刚诞生不久比较新?)。
--------------------- 2017-04-14 补充:为什么我讨厌腾讯 --------------------------
当然windows下的QQ是一个很好的网络聊天软件,但如同搜狗输入法一样,“好用”并不代表“我喜欢”。
经常使用Linux系统的人绝大部分都讨厌腾讯吧?原因自然不用多说,如果再翻看“如何在Linux上用QQ”的发展历史,就不只是讨厌,而更是气愤了。
现在只能幻想:未来某日,中美发生战争,主席一声令下:“禁止使用windows软件!”,然后主席在视察“国产Linux操作系统”时问一句:“我的孩子想在这个系统上用QQ和同学聊天,怎么办?”——也许这时候,腾讯才会屁颠屁颠地去加班加点开发真正可用的Linux版QQ吧?(当然,也有可能很有骨气,打死也不开发Linux版的QQ!)