mac中有个快捷键, [opt + 方向键] ,可以让光标以单词为单位进行跳转。(windows中其实也有。)如果是英文句子,系统会跳到上一个或者下一个空格处;如果是中文句子,系统会自动对中文进行分词,并自动跳到上一个/下一个单词处。比如:
在这个句子中:“mac系统似乎有内置的中文分词|”,我们把光标放在最后,然后按 [opt + ←],系统会自动跳到“分词”二字的前面。
但这个分词系统并不是十分有效:
1. 好多歧义无法辨别。这种分词看起来像是一种简单的词典匹配,并没有用到主流的分词方法(如ngram,字序列标注等)。
2. 并不是在所有的软件中都适用。在mail,safari,ia writer等大部分软件中都可以,但在terminal中不行。
有比较懂操作系统的人研究过这个问题吗?如果真的是基于词典匹配的,那么苹果是如何做到将词典文件压缩到最小的呢?我个人用python做过分词程序,载入词典时往往会占用数兆的内存。。
有没有可能在ubuntu中也实现这样的功能呢?
求助一个关于系统内置中文分词的问题
- koshman
- 帖子: 37
- 注册时间: 2010-06-14 22:15
- 系统: Fedora 17
求助一个关于系统内置中文分词的问题
我是六娃。