当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 2 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 如何查看英文维基百科用到了多少个不同单词?
帖子发表于 : 2016-09-28 20:57 

注册: 2013-05-26 6:58
帖子: 2158
系统: Debian 9
送出感谢: 894
接收感谢: 30
如何查看英文维基百科用到了多少个不同单词?


_________________
Linux桌面优化综合贴[2017.09.18](欢迎各位补充或指正误区)
[2016.03.10]会C语言但看不懂英文文档的点这里,一个用C语言编写的简陋学习工具
单硬盘通过iso文件实机安装Debian的方法
重启或操作fcitx时失去响应的一个解决方法,不妨试试看


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 如何查看英文维基百科用到了多少个不同单词?
帖子发表于 : 2016-09-28 22:44 
头像

注册: 2011-03-20 13:12
帖子: 4521
地址: 山东省寿光县
系统: Debian
送出感谢: 105
接收感谢: 997
研究方法参见
https://en.wikipedia.org/wiki/Tokenization_(lexical_analysis)
https://en.wikipedia.org/wiki/Text_segmentation#Word_segmentation
http://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

此链接 http://imonad.com/seo/wikipedia-word-frequency-list/ 使用类似方法对英文维基百科做了统计研究,其中中 "Unique tokens" 一项比较接近您设想中的数据,其值为 5800280。但此数值大大高于英文常用词汇量(约17万),亦大大高于已知英文总词汇量(约100万)
奇怪的是,虽然 "Unique tokens" 有些不可信,但 "Total tokens" 与已有的总单词量统计基本相符。(时间约为 2010 年前后)

总单词量统计参见
https://stats.wikimedia.org/EN/TablesWikipediaEN.htm
https://stats.wikimedia.org/EN/TablesDatabaseWords.htm
英文部分最近6年的数据缺失。

维基百科其它统计数据参见
https://en.wikipedia.org/wiki/Wikipedia:Statistics
https://stats.wikimedia.org/


_________________
Debian 中文论坛 - forums.debiancn.org
欢迎所有 Debian GNU/Linux 用户



_________________
评价: 3.7% 科学之子
 
页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 2 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 2 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译