当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 7 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 【更新】看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了。(补充:为什么我讨厌百度360腾讯)
帖子发表于 : 2017-03-30 11:11 
头像

注册: 2008-07-19 12:44
帖子: 3492
地址: 广西(桂)南宁(邕)
送出感谢: 0 次
接收感谢: 77
首先,介绍一下背景:
之前多次说过,我正在做一个开源的笔顺输入法,现在单字码表已经完成,准备做词汇码表。
也得到一些开源程序员的劝诫,说不能盗用别人的码表,需要得到别人的同意或者原创的才能纳入开源库。
词库码表少则几万个词汇,多则几百万个词汇,
我想挑出一些最常用的词汇写个程序脚本加上我的笔顺编码,作为基础词库,其它的则以分类词库供人选用。
所以,我就想看看,其它的输入法的“常用词汇”一般都有哪些?

于是,网上搜索找到了一个——搜狗核心词库.7z
解压缩后,得到两个txt格式的词库(不带拼音,一个是7.7版,另一个是8.0版),每个版本都是4万6千个字词。
但仔细一挑选就发现,这个安装后的不联网的默认词库,从开源爱好者的角度来看,简直是没法用啊!
虽然它也许包括有搜狗根据数据统计得到的“使用频率最高”的一些词汇,但也掺进了许多垃圾,体现了搜狗三个方面的思想:

一是懒。
只要是用户敲得多的,不加辨识,一律纳入,不论错误断句、错别字词、谐音别字(拼音输入常见)统统收纳。
而且字词扩展的语句太多,挤占了其它词汇应当存在的空间。当然联网有云词库就不怕,但如果不连上网络就麻烦了。
例如:“你要”开头的有133条,“你还”开头的有152条,“我就”开头的有247条,像“你为什”这样半截词有很多。

二是贪。
著名的、知名的、有名的企业、产品、网站,录入一些常见的,也情有可原。
但是你搜索以“……网”为结尾的词看看,有几个?哦不,应该说“有几百个?”——几百个不算多是吧?
那么连带这些网站的分类导航也收录进去了,而且这些网站是某个不知道属于那个省的小城市的不出名的小网站,不奇怪吗?
房产、汽车的品牌名称更是一个都能不少,全国人民整天都在聊这些名称?输入这些品牌名称的频率能超过许多字词?
——这些词汇是更应该放入“云词库”才对的啊,为什么把它们放入了软件自带的默认字库?不用联网也能做广告了,是吧?
不知道“百度输入法、QQ输入法”有没有这样的情况?(“呵呵”二字我在这里能不能节省下来?)

三是脏。
这是第一点的延伸——懒人自然是没有公德心的,不会去主动做“净化环境”的事情的,懒得做嘛。其结果就是脏:
充满了各种污秽的粗口话、网络自造的新词歪词恶搞词、甚至还有一眼看上去就知道是色情网站名称等单词。
——你是想方便孩子们输入这些词?或者你是想孩子们在打其它词的时,提示栏里也冒出这些词汇?

不是说要用输入法来“完全屏蔽不良词汇,完全无法输入”,但你也不能让这些恶劣的词汇能“更方便地输入”啊。
例如一句侮辱别人母亲的骂人话,你只要不把它纳入输入法词汇中,让想骂人的人一个字一个字慢慢打,这样世界就可以安静许多了嘛。
——我也不怕大家转发这篇文章出去,最好让张朝阳看到,醒醒脑,改良改良。
(注意:不是要你改良核心词库的加密方法,相反,而是应该改良自带的默认词库并公开给大家看看!不就4万6千个单词嘛。)
——借用他参与的一个广告里说的台词:“不就一个破企业嘛。”最近电视台经常播放的。




--------------------- 2017-04-14 补充:为什么我讨厌360和百度 --------------------------

小学老师布置作业:“我们明天要学的课文里,提到一个典故‘烽火戏诸侯’,大家回家后预习预习,‘烽火戏诸侯’讲的是什么故事?不懂的可以上网百度一下,”小朋友很听话地回家上网百度了,然后笑话就来了——搜索到那么多个结果,哪个结果才是啊?问问各大搜索引擎的掌门人,你们希望自己的孩子搜索到这个结果吗?

用事实说话,国内可以访问到的各大搜索引擎(时间2017年04月14日)搜索“烽火戏诸侯”得到结果的对比截图。
附件:
烽火戏诸侯.jpg
烽火戏诸侯.jpg [ 495.63 KiB | 被浏览 1005 次 ]


360搜索到的首页没有解释这个典故的文字结果,第1项放的是自己的360百科,但却是在介绍一个网络作家,第2项是相关新闻讨论,第5项有相关图片,彻底体现了360的历史价值观(对历史根本不屑一顾)。

百度搜索到的首页第4项才是解释这个典故的文字结果,第1项放的是自己的百度百科,但却是在介绍一个网络作家,下面有个小字“历史典故”,完全体现了百度的历史价值观(历史必须排在网络名人之后)。

必应搜索到的首页解释这个典故虽然排在第3项,但前2项目用不同颜色背景表明那些是广告,观众可以不费力跳过,直接看到“实际”的第一位置是互动百科的解释,而且第3项收录的百度百科也没弄混,把典故放前,那个同名网络作家放后,算个良心商家(广告可以有,但要划分清楚界线)。

搜狗搜索到的首页解释这个典故排在第1项,是来自互动百科的解释,第4项是取自360个人图书馆(为什么360自己不搜索自己?),其它的依然大部分是那个同名网络作家的链接。

国搜搜索到的首页解释这个典故也排在第1项,放的是自己的国搜百科,后面的搜索结果才是相关游戏新闻,是所有搜索引擎中出现那个同名网络作家最少的(也许是因为这个搜索引擎刚诞生不久比较新?)。




--------------------- 2017-04-14 补充:为什么我讨厌腾讯 --------------------------

当然windows下的QQ是一个很好的网络聊天软件,但如同搜狗输入法一样,“好用”并不代表“我喜欢”。
经常使用Linux系统的人绝大部分都讨厌腾讯吧?原因自然不用多说,如果再翻看“如何在Linux上用QQ”的发展历史,就不只是讨厌,而更是气愤了。

现在只能幻想:未来某日,中美发生战争,主席一声令下:“禁止使用windows软件!”,然后主席在视察“国产Linux操作系统”时问一句:“我的孩子想在这个系统上用QQ和同学聊天,怎么办?”——也许这时候,腾讯才会屁颠屁颠地去加班加点开发真正可用的Linux版QQ吧?(当然,也有可能很有骨气,打死也不开发Linux版的QQ!)


_________________
一善鱼 yq-ysy@163.com

音频数字工作站 Ardour 4 初学者教程  影视特效3D动画 Blender 2.5~2.6 完全教程  图像处理 Krita 3 数字绘画入门


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了
帖子发表于 : 2017-03-30 12:19 

注册: 2013-05-26 6:58
帖子: 2159
系统: Debian 9
送出感谢: 894
接收感谢: 30
个人感觉fcitx拼音无压力
平常都养成了"训练"拼音输入法的习惯
如果输入法组词错误,我就会让故意多打几遍
感觉不是很大的压力
当然,要注意合理分词,不能自己随便乱拆,乱拆开打别说机器,就是人也会读不懂


_________________
Linux桌面优化综合贴[2017.09.18](欢迎各位补充或指正误区)
[2016.03.10]会C语言但看不懂英文文档的点这里,一个用C语言编写的简陋学习工具
单硬盘通过iso文件实机安装Debian的方法
重启或操作fcitx时失去响应的一个解决方法,不妨试试看


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了
帖子发表于 : 2017-03-30 21:59 
头像

注册: 2007-11-25 13:29
帖子: 7268
地址: 新疆博乐
系统: 14.04/16.04/Fedroa22
送出感谢: 38
接收感谢: 101
搜狗有个优点可以同步用户词库,这样优先显示自己的词库


_________________
===新手请看===
Ubuntu 安装 | Ubuntu12.04/14.04/16.04 桌面操作指南
··Ubuntu16.04 安装图文教程(超简单)
····有时间就静下心来——折腾:)


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了
帖子发表于 : 2017-03-31 0:51 
头像

注册: 2012-11-14 9:34
帖子: 571
系统: Fedora26/UMate16043
送出感谢: 1
接收感谢: 38
TeliuTe 写道:
搜狗有个优点可以同步用户词库,这样优先显示自己的词库


有一段时间,我们统一使用搜狗/fcitx,不过因为碰到一些稳定度的问题,决定不再“无事惹尘埃“(我们的学员们在技术及中文方面都是菜鸟),全盘转到ibus-pinyin。一年多来,还没有碰到任何问题。(Knock on Wood!)

当然啦,输入法是一个相当personal的事,我也不敢奢望论坛的大牛们能够对我们提供支持,放一点时间到ibus-pinyin上。 :em06

有一位朋友跟我提到,搜狗因为搜集(cache)用户输进去的词库,在隐私甚至安全方面可能要注意一下。事实如何,不了解,也没有兴趣去了解。不过我倒是看过搜狗的一个专利,让用户对自己的cache加密(encryption)。


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了
帖子发表于 : 2017-03-31 9:34 

注册: 2010-05-01 21:23
帖子: 1955
送出感谢: 4
接收感谢: 21
Ping-Wu 写道:
TeliuTe 写道:
搜狗有个优点可以同步用户词库,这样优先显示自己的词库


有一段时间,我们统一使用搜狗/fcitx,不过因为碰到一些稳定度的问题,决定不再“无事惹尘埃“(我们的学员们在技术及中文方面都是菜鸟),全盘转到ibus-pinyin。一年多来,还没有碰到任何问题。(Knock on Wood!)

当然啦,输入法是一个相当personal的事,我也不敢奢望论坛的大牛们能够对我们提供支持,放一点时间到ibus-pinyin上。 :em06

有一位朋友跟我提到,搜狗因为搜集(cache)用户输进去的词库,在隐私甚至安全方面可能要注意一下。事实如何,不了解,也没有兴趣去了解。不过我倒是看过搜狗的一个专利,让用户对自己的cache加密(encryption)。


小小输入法也能加密。甚至个人的部分隐私数据,都可加密。
智能输入法,词库大是理所当然的,想小就自己编,使用带码的输入法。
小小输入法也能同步,手机,电脑等都能同步。如果会点脚本,自己搞个码表,使用是非常爽的事情。


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 正在做一个开源输入法码表,看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了
帖子发表于 : 2017-04-01 4:23 
头像

注册: 2012-11-14 9:34
帖子: 571
系统: Fedora26/UMate16043
送出感谢: 1
接收感谢: 38
谢宝良 写道:
Ping-Wu 写道:
TeliuTe 写道:
搜狗有个优点可以同步用户词库,这样优先显示自己的词库


有一段时间,我们统一使用搜狗/fcitx,不过因为碰到一些稳定度的问题,决定不再“无事惹尘埃“(我们的学员们在技术及中文方面都是菜鸟),全盘转到ibus-pinyin。一年多来,还没有碰到任何问题。(Knock on Wood!)

当然啦,输入法是一个相当personal的事,我也不敢奢望论坛的大牛们能够对我们提供支持,放一点时间到ibus-pinyin上。 :em06

有一位朋友跟我提到,搜狗因为搜集(cache)用户输进去的词库,在隐私甚至安全方面可能要注意一下。事实如何,不了解,也没有兴趣去了解。不过我倒是看过搜狗的一个专利,让用户对自己的cache加密(encryption)。


小小输入法也能加密。甚至个人的部分隐私数据,都可加密。
智能输入法,词库大是理所当然的,想小就自己编,使用带码的输入法。
小小输入法也能同步,手机,电脑等都能同步。如果会点脚本,自己搞个码表,使用是非常爽的事情。


我有一些徒弟跟我发誓,他们使用像“同花顺”之类的玩股软件时,输入的资料一定被网站cache过去了。因为每次好不容易找到一个珍藏不露的好股票,正想进场就会被炒起来了。在这个“大资料库”的时代,cache的收集者不见得会直接使用我们的资料,但会被拿去拍卖(clearing house)。把cache资料跟IP地址连在一起也是很容易的事。


页首
 用户资料  
 
7 楼 
 文章标题 : Re: 【更新】看过“搜狗输入法核心词库”之后,想“盗用它的词库”的心都没有了。(补充:为什么我讨厌百度360腾讯)
帖子发表于 : 2017-04-14 10:40 
头像

注册: 2008-07-19 12:44
帖子: 3492
地址: 广西(桂)南宁(邕)
送出感谢: 0 次
接收感谢: 77
今天遇到一些事,于是有感而发,编辑补充:为什么我讨厌百度360腾讯。


_________________
一善鱼 yq-ysy@163.com

音频数字工作站 Ardour 4 初学者教程  影视特效3D动画 Blender 2.5~2.6 完全教程  图像处理 Krita 3 数字绘画入门


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 7 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:Bing [Bot] 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译