当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 5 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 如何获取网站上的链接URL
帖子发表于 : 2010-09-14 12:47 

注册: 2010-01-01 14:04
帖子: 26
送出感谢: 0 次
接收感谢: 0 次
我想下载一个网站上的网页,使用wget -r会下载很多无用的网页下来。而我想下的那些网页(都是该网站的,没外链)地址中含随机数,使用循环去匹配的话工作量非常巨大(HTTP不支持通配符,DAMN),不知道要下到何年何月;所以我的想法是先获得这个网站上所有的链接地址,再筛选地址,然后下载。如何获取地址?


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 如何获取网站上的链接URL
帖子发表于 : 2010-09-14 14:08 
头像

注册: 2006-10-25 18:08
帖子: 1582
送出感谢: 0 次
接收感谢: 0 次
给个网页源码,作文本处理


_________________
楼主真是一派胡言,真可谓:“两个黄鹂鸣翠柳,不知所云;一行白鹭上青天,不知所止“。本来不想和你辩论,今天气愤不过,和你理论一番。我国宪法写得清清楚楚:“一夜夫妻百日恩,七楼以上才有电梯”。这个想必你知道,既然知道,你就不能断章取义,就算是天气预报,它还有不准的时候呢!!!再者说了,那中国银行也不是你一家开的。人家马拉多纳都结婚了,你还拿着粮票顶什么用呢。真是滑天下之大稽。前些日子,全国人大刚刚开过会,郑重声明:“中国不搞多party制,存栏母猪给补贴”。多好的事呢,楞让你这号人给搅混了。


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 如何获取网站上的链接URL
帖子发表于 : 2010-09-14 14:11 

注册: 2008-01-09 22:41
帖子: 18311
送出感谢: 0 次
接收感谢: 6
分析源码,找href


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 如何获取网站上的链接URL
帖子发表于 : 2010-09-14 14:30 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 274
w3m -dump_source -no-cookie 这样。然后分析链接就是。

要直接爬网页,那用perl


_________________
● 鸣学


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 如何获取网站上的链接URL
帖子发表于 : 2010-09-14 18:54 

注册: 2010-01-01 14:04
帖子: 26
送出感谢: 0 次
接收感谢: 0 次
谢谢,成功了


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 5 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 1 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译