当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 4 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 网址抓取与分析
帖子发表于 : 2009-06-21 16:26 
头像

注册: 2008-05-31 17:27
帖子: 1025
地址: SUES
送出感谢: 0 次
接收感谢: 0 次
是这样的,我想研究一下各个大学的水平和网页上错误数有什么关系
但是很无奈不少网站都只是跳转,这样就不能用网址大全这类的复制粘贴了。
网址我可以提供,但只能是类似http://www.tsinghua.edu.cn这类的,因为很多学校根本不知道跳转到哪。
哪位高手能提供一下脚本?


_________________
我的Ubuntu相关
--------------------
Full Circle中文杂志 | Ubuntu社区独立发行的电子月刊


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 网址抓取与分析
帖子发表于 : 2009-06-21 16:26 
头像

注册: 2008-05-31 17:27
帖子: 1025
地址: SUES
送出感谢: 0 次
接收感谢: 0 次
忘了说了,是提交到W3C服务器的验证那里


_________________
我的Ubuntu相关
--------------------
Full Circle中文杂志 | Ubuntu社区独立发行的电子月刊


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 网址抓取与分析
帖子发表于 : 2009-06-25 9:12 
头像

注册: 2007-05-08 16:26
帖子: 2058
地址: 火星内核某分子内某原子核内
系统: arch
送出感谢: 20
接收感谢: 6
RFuzz:新的Ruby HTTP客户端

http://www.letrails.cn/archives/21

用RUBY做东西就是方便,虽然我没用过 RFuzz ,但建议你试试。


_________________
笔记本 :
F208S : gentoo
A460P i3G D6 : UBUNTU + WIN7
UN43D1 : UBUNTU + WIN7
1000人超级QQ群 LINUX + WIN : 31465544 或 18210387


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 网址抓取与分析
帖子发表于 : 2009-06-25 14:56 

注册: 2008-10-31 22:12
帖子: 6546
系统: 践兔
送出感谢: 18
接收感谢: 25
代码:
errs=0
for w in websites ; do
    if [ `w3m -dump http://host/link... | grep error` != "" ] ;then
        errs=$(($errs+xxx))
    fi
done
echo $errs


_________________
代码:
] ls -ld //


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 4 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 4 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译