一个从指定网页地址批量下载相关类型文件的脚本

formylove2 · #1

比如这个网页上有大批rar类型的文件提供了超级连接可供直接下载无登录等限制

当然也可以是PDF阿什么的我想写一个脚本用wget批量下载但用什么判断这些页面上的东东呢？

望有高手指条明路

formylove2 · #2

给点提示都行

O_O_BOT · #3

分析 href -> grep -> ok

eexpress · #4

代码：全选

cat fetch-link.pl 
#!/usr/bin/perl

use LWP::UserAgent;
my $url=shift;
#my $url='http://forum.ubuntu.org.cn/search.php?search_id=newposts';
#my $url='http://doc.linuxpk.com/2970.html';
my $ua=new LWP::UserAgent();
my $re= $ua->get($url);
die if (!$re->is_success);
my $html= $re->content;

#得到页面中所有链接
while($html=~m{<a href=(["'])(.*?)\1.*?>(<.*?/>)*(.*?)</a>}gsi){
#print "$2\t--->$4\n";
my $l=$2; my $t=$4;if($l=~/^http/ and $l!~/com\/$|cn\/$/ and $t!~/^</){print "$l\t--->$t\n";}
}

formylove2 · #5

代码：全选

$html=~m{<a href=(["'])(.*?)\1.*?>(<.*?/>)*(.*?)</a>}gsi
#这个正则下来有哪几个变量赋值了？

代码：全选

$l=~/^http/ and $l!~/com\/$|cn\/$/ and $t!~/^</
#这个是去掉地址中的http com cn 然后找到匹配$l 和$t 的东西？

这两个正则。。我实在是看不明白

formylove2 · #6

不过很感谢EE

perl 的LWP 模块进行页面分析前面那段网页内容的获取没多大问题

就是后面那些正则分析提取需要的内容。。哎真是想破脑袋

O_O_BOT · #7

要shell的没

eexpress · #8

perl 的正则，天生强大，而且难懂。

formylove2 · #9

O_O_BOT, 的有点玩不明白

./脚本目标地址 ? 这样运行么？提示输入Inpu regex 我输入 *.rar 只能下载主页

我现在根据ee的办法现用perl提取到指定页面的内容让脚本建个wget的下载list 把指定页面的链接分析放到 list中然后调用wget下载

现在问题就是怎么把指定页面内容里的 <a href= > </a> 中的指定类型给"正则"出来

对了我怎么在perl脚本中调用bash里的程序阿？

eexpress · #10

调用啊。就是``啊
比如

代码：全选

`wget $myurl`;

<a href= > </a> 中的指定类型给"正则"出来

你试试这注释掉的那句，就知道了。

while($html=~m{<a href=(["'])(.*?)\1.*?>(<.*?/>)*(.*?)</a>}gsi){
#print "$2\t--->$4\n";

knowfarway · #11

cat fetch-link.pl
这个是什么东东？我这里木有fetch-link.pl，怎么办？

formylove2 · #12

$url=http://www.ouravr.com/bbs/bbs_content.j ... bs_id=1000
比如这个网址

#print "$2\t--->$4\n";
解除注释后运行

就是没有下载的那些文件的链接都是些无关紧要的
我仔细看了下发现你的正则好像要改下找到的全部都是像这样格式的：
<br><a href=xxxxxx>xxxxxr</a>

而页面上放出的下载连接源码前面都带有http
<br><a href=http://download.ourdev.cn/bbs_upload245 ... 用资料.rar</a>

只要前面带http的都分析不出来

$2 和$4 对应的是哪段正则的？
悲伤的问一下为啥我的shell 里显示 $4时都这样子？:��

eexpress · #13

就是模式匹配的。那些()嘛。几个()里面的。就是$digit 表示的。

给你一个我整理的变量说明。

formylove2 · #14

哦有点眉目了重点就是正则你那个开头
["'] 是针对这样的形式 "xxxxx" 'xxxx' 才匹配有些连接没有"" 和''

后面的那个(<.*?/>)*(.*?)</a> 可以去掉我只需要路径标识在shell里显示乱码估计是网页上编码的问题

最后的那个gsi啥意思阿

O_O_BOT · #15

我用的是grep 的正则那
\.rar 罗

一个从指定网页地址批量下载相关类型文件的脚本

一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本

Re: 一个从指定网页地址批量下载相关类型文件的脚本