这样的文件怎么用wget下载？

c_charles · #1

路径：（页面A：文件目录）——》下载页面B（每个文件的下载页面地址不同，但是使用同一个链接title【如：XXX主力下载站点】）——》下载文件（文件名为：*.rar）

请问如何用wget批量下载页面A中的所有文件？

如果【XXX主力下载站点】中指向的下载文件和页面A、B在同一主机下，如何用wget获得？
如果【XXX主力下载站点】中指向的下载文件指向了其他主机，如何用wget获得文件？

highwind · #2

那您在win下是如何完成的呢？

peakgg · #3

wget不能识别这个的吧
LZ可以写个脚本先把这些地址识别出来再用wget下

c_charles · #4

嘿嘿，请你也顺便告诉我在win下如何完成吧。

俺用的笨办法，太丢人了，不说也罢。不是看着广告说wget超级厉害么，就想试试。

c_charles · #5

peakgg 写了：wget不能识别这个的吧
LZ可以写个脚本先把这些地址识别出来再用wget下

本人只初识wget，会简单使用。脚本认识我，我不认识它

我想，既然wget可以镜像网站。是否可以设定网页的层次，沿着链接的指向把文件下来呢。试过很多次，每次都只能到“下载页面”，再也不能继续深入到具体文件了。

请教请教

xieshaohu · #6

看那个页面的源代码，把所有的下载地址Copy出来，然后在 http://之前加上wget，
然后再执行这个脚本，就OK了。

冲浪板 · #7

wget -i list.at -c -r -nd -l2 -np -b -t 50 -T 30 -w 30 -A rar

c_charles · #8

xieshaohu 写了：看那个页面的源代码，把所有的下载地址Copy出来，然后在 http://之前加上wget，
然后再执行这个脚本，就OK了。

这个没看懂

如果需要人工把地址一个个拷贝下来，就不用麻烦了。直接 wget http://…… 或者用文件导入地址列表（-i 参数）不就行了？

c_charles · #9

冲浪板写了：wget -i list.at -c -r -nd -l2 -np -b -t 50 -T 30 -w 30 -A rar

无效

在其后加目录页面地址后，死循环。还是我用错了？

举例地址：http://www.tzsy.cn/subject/czkx/cykxja/

arserangel · #10

先把A页面下下来，然后用正则把要下载的地址全读出来，存成文件，然后用wget把文件里的东西作为列表下载。

peachcolor · #11

我觉得楼主的脚本功力不一定看得懂各位的回答

c_charles · #12

peachcolor 写了：我觉得楼主的脚本功力不一定看得懂各位的回答

9494，俺脚本功力肉的很。

如果有大大能把上面的例子做个现成的脚本，俺参考参考，再依葫芦画瓢努力学习脚本和正则。

冲浪板 · #13

c_charles 写了：
冲浪板写了：wget -i list.at -c -r -nd -l2 -np -b -t 50 -T 30 -w 30 -A rar
无效

在其后加目录页面地址后，死循环。还是我用错了？

举例地址：http://www.tzsy.cn/subject/czkx/cykxja/

试试
wget http://www.tzsy.cn/subject/czkx/cykxja/index.html -c -r -nd -l3 -np -b -t 50 -T 30 -w 30 -A rar,html[/quote]

btw:这个下载完了怎么辨认文件啊？
另外看看http://www.tzsy.cn/subject/czkx/cykxja/index.htm，哪个资源是你要的

c_charles · #14

试试
wget http://www.tzsy.cn/subject/czkx/cykxja/index.html -c -r -nd -l3 -np -b -t 50 -T 30 -w 30 -A rar,html[/quote]

btw:这个下载完了怎么辨认文件啊？
另外看看http://www.tzsy.cn/subject/czkx/cykxja/index.htm，哪个资源是你要的[/quote]

谢谢你的代码，但是我还是没有得到所需的文件。得到的是下载log文件和一批html文件。

正常应该是这样：在该页面（http://www.tzsy.cn/subject/czkx/cykxja/）点击一个文件目录链接（如：[七上]1.2实验和观察教案），进入一个下载页面（http://www.tzsy.cn/subject/czkx/cykxja/ ... 91152.html），在该下载页面中有下载链接（如：【1号电信服务器下载】http://d1.tzsy.cn/uploads/subject_kj/65 ... 877801.rar），下载得到所需的rar文件。

注意到下载服务器域名和引用页的域名不一致，是否wget参数不正确而不能正确下载到文件？

我想改事例对wget的批量下载应该有一定代表性。如果能正常实现，应该能大幅提高多文件下载的效率的。

冲浪板 · #15

加参数"-H",(和-L相反); 并且要去掉“-np”

btw:这些*.html包含链接，可以被利用：用-i <file>;
而且提取http://d1.tzsy.cn/uploads/subject_kj/657/200882410292871877801.rar的话，可以少下一次（每文件不是有两连接的？虽然已经用参数禁止下两个一样的文件...）

html还需要整理整理，呵呵，如：
cat 24-191133.html | grep 电信服务器下载 | grep 1号电信服务器下载

把他们收集起来：
cat 24-191133.html | grep 1号电信服务器下载 | awk '/http/{print $3}' | awk -F \" '{print $2}'

cat *.html | grep 1号电信服务器下载 | awk '/http/{print $3}' | awk -F \" '{print $2}'

也可以简化
cat *.html | awk '/1号电信服务器下载/{print $3}' | awk -F \" '{print $2}'

这样的文件怎么用wget下载？

这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？

Re: 这样的文件怎么用wget下载？