Ubuntu中文论坛
致力于Ubuntu中文推广
http://forum.ubuntu.org.cn/
如何查看英文维基百科用到了多少个不同单词?
http://forum.ubuntu.org.cn/viewtopic.php?t=480754
分页:
1
/
1
如何查看英文维基百科用到了多少个不同单词?
发表于 :
2016-09-28 20:57
由
科学之子
如何查看英文维基百科用到了多少个不同单词?
Re: 如何查看英文维基百科用到了多少个不同单词?
发表于 :
2016-09-28 22:44
由
vickycq
研究方法参见
https://en.wikipedia.org/wiki/Tokenizat ... _analysis)
https://en.wikipedia.org/wiki/Text_segm ... gmentation
http://nlp.stanford.edu/IR-book/html/ht ... ion-1.html
此链接
http://imonad.com/seo/wikipedia-word-frequency-list/
使用类似方法对英文维基百科做了统计研究,其中中 "Unique tokens" 一项比较接近您设想中的数据,其值为 5800280。但此数值大大高于英文常用词汇量(约17万),亦大大高于已知英文总词汇量(约100万)
奇怪的是,虽然 "Unique tokens" 有些不可信,但 "Total tokens" 与已有的总单词量统计基本相符。(时间约为 2010 年前后)
总单词量统计参见
https://stats.wikimedia.org/EN/TablesWikipediaEN.htm
https://stats.wikimedia.org/EN/TablesDatabaseWords.htm
英文部分最近6年的数据缺失。
维基百科其它统计数据参见
https://en.wikipedia.org/wiki/Wikipedia:Statistics
https://stats.wikimedia.org/