当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 18 篇帖子 ]  前往页数 1, 2  下一页
作者 内容
1 楼 
 文章标题 : 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 10:53 

注册: 2008-09-22 12:58
帖子: 211
送出感谢: 0 次
接收感谢: 0 次
路径:(页面A:文件目录)——》下载页面B(每个文件的下载页面地址不同,但是使用同一个链接title【如:XXX主力下载站点】)——》下载文件(文件名为:*.rar)

请问如何用wget批量下载页面A中的所有文件?

如果【XXX主力下载站点】中指向的下载文件和页面A、B在同一主机下,如何用wget获得?
如果【XXX主力下载站点】中指向的下载文件指向了其他主机,如何用wget获得文件?


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 17:45 
头像

注册: 2008-09-05 23:31
帖子: 1363
系统: LinuxMint17
送出感谢: 35
接收感谢: 11
:em05 那您在win下是如何完成的呢?


_________________
茕茕
问题大海之一粟:http://forum.ubuntu.org.cn/viewtopic.php?f=74&t=212497
NEMO-Actions使用方法:http://forum.ubuntu.org.cn/viewtopic.php?f=175&t=456548
在线编码转换:http://2cyr.com/decode/?lang=en


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 17:51 
头像

注册: 2006-10-10 9:40
帖子: 1122
送出感谢: 1
接收感谢: 0 次
wget不能识别这个的吧
LZ可以写个脚本先把这些地址识别出来再用wget下


_________________
焚我娇躯 熊々欲火 生不知欢 死焉知苦
海盗行侠 惟面神故 汁丸汤条 皆归尘土
怜我世人 惑患实多 怜我世人 惑患实多


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 17:52 

注册: 2008-09-22 12:58
帖子: 211
送出感谢: 0 次
接收感谢: 0 次
嘿嘿,请你也顺便告诉我在win下如何完成吧。

俺用的笨办法,太丢人了,不说也罢。不是看着广告说wget超级厉害么,就想试试。


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 18:00 

注册: 2008-09-22 12:58
帖子: 211
送出感谢: 0 次
接收感谢: 0 次
peakgg 写道:
wget不能识别这个的吧
LZ可以写个脚本先把这些地址识别出来再用wget下

本人只初识wget,会简单使用。脚本认识我,我不认识它 :em06

我想,既然wget可以镜像网站。是否可以设定网页的层次,沿着链接的指向把文件下来呢。试过很多次,每次都只能到“下载页面”,再也不能继续深入到具体文件了。

请教请教


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 18:01 
头像

注册: 2007-10-24 20:20
帖子: 1565
地址: 北京、海淀
送出感谢: 0 次
接收感谢: 1
看那个页面的源代码,把所有的下载地址Copy出来,然后在 http://之前加上wget,
然后再执行这个脚本,就OK了。


_________________
Dell Vostro 1500, T7300/4GB/WD5000BEVT/nVidia 8400GM, Ubuntu 10.04 x86_64/VMware 7(Win7)
我的博客:http://xieshaohu.wordpress.com/


页首
 用户资料  
 
7 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 18:04 
头像

注册: 2007-05-06 8:19
帖子: 7433
送出感谢: 0 次
接收感谢: 4
wget -i list.at -c -r -nd -l2 -np -b -t 50 -T 30 -w 30 -A rar


页首
 用户资料  
 
8 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 22:39 

注册: 2008-09-22 12:58
帖子: 211
送出感谢: 0 次
接收感谢: 0 次
xieshaohu 写道:
看那个页面的源代码,把所有的下载地址Copy出来,然后在 http://之前加上wget,
然后再执行这个脚本,就OK了。


这个没看懂 :em06

如果需要人工把地址一个个拷贝下来,就不用麻烦了。直接 wget http://…… 或者用文件导入地址列表(-i 参数)不就行了?


最后由 c_charles 编辑于 2009-07-25 22:43,总共编辑了 1 次

页首
 用户资料  
 
9 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-25 22:41 

注册: 2008-09-22 12:58
帖子: 211
送出感谢: 0 次
接收感谢: 0 次
冲浪板 写道:
wget -i list.at -c -r -nd -l2 -np -b -t 50 -T 30 -w 30 -A rar


无效 :em06

在其后加目录页面地址后,死循环。还是我用错了?

举例地址:http://www.tzsy.cn/subject/czkx/cykxja/


页首
 用户资料  
 
10 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-26 7:36 

注册: 2007-02-09 8:33
帖子: 89
地址: 深圳福田
送出感谢: 6
接收感谢: 1
先把A页面下下来,然后用正则把要下载的地址全读出来,存成文件,然后用wget把文件里的东西作为列表下载。


页首
 用户资料  
 
11 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-26 8:54 
头像

注册: 2006-05-20 14:03
帖子: 898
送出感谢: 0 次
接收感谢: 0 次
我觉得楼主的脚本功力不一定看得懂各位的回答


页首
 用户资料  
 
12 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-26 10:46 

注册: 2008-09-22 12:58
帖子: 211
送出感谢: 0 次
接收感谢: 0 次
peachcolor 写道:
我觉得楼主的脚本功力不一定看得懂各位的回答

9494,俺脚本功力肉的很。 :em06 :em06

如果有大大能把上面的例子做个现成的脚本,俺参考参考,再依葫芦画瓢努力学习脚本和正则。 :em02


页首
 用户资料  
 
13 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-26 11:14 
头像

注册: 2007-05-06 8:19
帖子: 7433
送出感谢: 0 次
接收感谢: 4
c_charles 写道:
冲浪板 写道:
wget -i list.at -c -r -nd -l2 -np -b -t 50 -T 30 -w 30 -A rar


无效 :em06

在其后加目录页面地址后,死循环。还是我用错了?

举例地址:http://www.tzsy.cn/subject/czkx/cykxja/


试试
wget http://www.tzsy.cn/subject/czkx/cykxja/index.html -c -r -nd -l3 -np -b -t 50 -T 30 -w 30 -A rar,html[/quote]

btw:这个下载完了怎么辨认文件啊?
另外看看http://www.tzsy.cn/subject/czkx/cykxja/index.htm,哪个资源是你要的


页首
 用户资料  
 
14 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-26 14:06 

注册: 2008-09-22 12:58
帖子: 211
送出感谢: 0 次
接收感谢: 0 次
试试
wget http://www.tzsy.cn/subject/czkx/cykxja/index.html -c -r -nd -l3 -np -b -t 50 -T 30 -w 30 -A rar,html[/quote]

btw:这个下载完了怎么辨认文件啊?
另外看看http://www.tzsy.cn/subject/czkx/cykxja/index.htm,哪个资源是你要的[/quote]

谢谢你的代码,但是我还是没有得到所需的文件。得到的是下载log文件和一批html文件。 :em06

正常应该是这样:在该页面(http://www.tzsy.cn/subject/czkx/cykxja/)点击一个文件目录链接(如:[七上]1.2实验和观察教案),进入一个下载页面(http://www.tzsy.cn/subject/czkx/cykxja/200808/24-191152.html),在该下载页面中有下载链接(如:【1号电信服务器下载】http://d1.tzsy.cn/uploads/subject_kj/657/200882410292871877801.rar),下载得到所需的rar文件。

注意到下载服务器域名和引用页的域名不一致,是否wget参数不正确而不能正确下载到文件?

我想改事例对wget的批量下载应该有一定代表性。如果能正常实现,应该能大幅提高多文件下载的效率的。


页首
 用户资料  
 
15 楼 
 文章标题 : Re: 这样的文件怎么用wget下载?
帖子发表于 : 2009-07-26 18:16 
头像

注册: 2007-05-06 8:19
帖子: 7433
送出感谢: 0 次
接收感谢: 4
加参数"-H",(和-L相反); 并且要去掉“-np”

btw:这些*.html包含链接,可以被利用:用-i <file>;
而且提取http://d1.tzsy.cn/uploads/subject_kj/657/200882410292871877801.rar的话,可以少下一次(每文件不是有两连接的?虽然已经用参数禁止下两个一样的文件...)

html还需要整理整理,呵呵,如:
cat 24-191133.html | grep 电信服务器下载 | grep 1号电信服务器下载

把他们收集起来:
cat 24-191133.html | grep 1号电信服务器下载 | awk '/http/{print $3}' | awk -F \" '{print $2}'

cat *.html | grep 1号电信服务器下载 | awk '/http/{print $3}' | awk -F \" '{print $2}'

也可以简化
cat *.html | awk '/1号电信服务器下载/{print $3}' | awk -F \" '{print $2}'


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 18 篇帖子 ]  前往页数 1, 2  下一页

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 4 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译