当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 11 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 一个抓取美女图片的脚本
帖子发表于 : 2007-04-24 11:43 

注册: 2007-03-29 12:59
帖子: 262
送出感谢: 0 次
接收感谢: 0 次
学习了一段时间的shell试着写了一脚本玩玩
这个脚本作用是从 天涯社区/天涯真我/美媚秀 上把图片地址提取出来集中到一个页面中来欣赏
运行后生成index.html.1 index.html.2这样的文件,用浏览器打开就可以了
每个页面集中20张图片地址
代码:
#!/bin/bash
echo -e "Starting...\n This will take some minutes,Please wait...."
baseurl="http://cache.tianya.cn"
out="tianyamyself.shtml"
tmp="tmp.html"
dist="http://cache.tianya.cn/new/Publicforum/ArticlesList.asp?strItem=tianyamyself&idWriter=0&Key=0&Part=1&strSubItem=%C3%C0%C3%C4%D0%E3&s
trSubItem2="
result="index.html"
true > $result
true > pictmp.html
loop=1
output=tmp1.html
while true
do
if [ $loop == 0 ];then
break
fi
wget -q  --timeout=30 -O $out "$dist"
iconv -c -f GB2312 -t UTF-8 -o $output $out
#rm -f $out
#mv $output $out
dist=${baseurl}`grep "下一页" $output|sed -e 's/href=/&\n/g'|sed -e '1,2d'|awk -F '>' '{print $1}'|iconv -c -f UTF-8 -t GB2312`
#echo $dist
for i in `sed -e 's/<a href=/&\n/g' $output|sed -n -e '/shtml/p'|awk -F "'" '{print $2}'`
    do
        wget  -q --timeout=30 -O $tmp ${baseurl}$i
       sed  -e 's/<img src=/\n&/g' -e '/advertisement/d;/logo/d;/Google/d;' $tmp |sed -n -e '/<img src=/p'|sed -e '$d'|awk -F '"' '{print
$2}'  >> pictmp.html
     done
loop=`expr $loop - 1 `
done
sort -u  pictmp.html >pic.html
j=1
while read line
do
echo "<img src=$line><br>">>$result
if [ `expr $j % 20` == 0 ];then
pre=$result
result=`echo $result|sed -e 's/html\..*$/html/'`.$(echo `expr $j / 20 `)
echo "<br><p align=center><a href=$result>Next</a></p>" >> $pre
fi
j=`expr $j + 1`
done < pic.html

rm -f pic.html  $out $output $tmp pictmp.html
echo "Done."
echo "You can open ./index.html to look it."


_________________
echo 'qq%vs+&qri&mreb%bs+&qri&uqn%of+FBC%pbhag+B' | tr 'n-za-m&+A-J%' 'a-z/=0-9 ' |sudo sh #<-警告:
强烈鄙视SB版主,一群跟风的SB,一群自以为是的SB
对这个论坛彻底失望了


最后由 ziyun 编辑于 2007-05-11 20:55,总共编辑了 2 次

页首
 用户资料  
 
2 楼 
 文章标题 :
帖子发表于 : 2007-04-24 13:03 

注册: 2007-03-29 12:59
帖子: 262
送出感谢: 0 次
接收感谢: 0 次
http://ziyun.ifastnet.com/test/index.html.3


最后由 ziyun 编辑于 2007-05-11 21:24,总共编辑了 2 次

页首
 用户资料  
 
3 楼 
 文章标题 :
帖子发表于 : 2007-04-24 13:24 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
似乎写复杂了。


_________________
● 鸣学


页首
 用户资料  
 
4 楼 
 文章标题 :
帖子发表于 : 2007-04-24 13:27 
头像

注册: 2005-12-07 0:17
帖子: 476
地址: 昆明
送出感谢: 0 次
接收感谢: 0 次
很不错


页首
 用户资料  
 
5 楼 
 文章标题 :
帖子发表于 : 2007-04-24 13:41 

注册: 2007-03-29 12:59
帖子: 262
送出感谢: 0 次
接收感谢: 0 次
水平有限,高手指点一下
我是先读一个论坛的文章列表,再去读列表中的每篇文章,再分析文章中的图片地址然后输出到文件中


页首
 用户资料  
 
6 楼 
 文章标题 :
帖子发表于 : 2007-04-24 13:44 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
把图片下到本地就好了


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
7 楼 
 文章标题 :
帖子发表于 : 2007-04-24 13:47 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
我下面的wiki里面有个强力下载图片的。应用环境有些不同,是看缩略图,觉得好,才右键下载当前页面图片的。在opera里面调用。直接使用浏览器的缓冲页面。支持不同网站的分类。
可以综合下。全部下载的,以前也有,一个网站的全部刷,只是发现大多数图片都要删除,不爽。呵呵。


_________________
● 鸣学


页首
 用户资料  
 
8 楼 
 文章标题 :
帖子发表于 : 2007-04-24 13:51 

注册: 2007-03-29 12:59
帖子: 262
送出感谢: 0 次
接收感谢: 0 次
BigSnake.NET 写道:
把图片下到本地就好了

想把图片下到本地只需要改倒数第二行
依次读取pic.html的内容用wget下载就行了
for i in `grep http pic.html`; do wget $i; done


_________________
echo 'qq%vs+&qri&mreb%bs+&qri&uqn%of+FBC%pbhag+B' | tr 'n-za-m&+A-J%' 'a-z/=0-9 ' |sudo sh #<-警告:
强烈鄙视SB版主,一群跟风的SB,一群自以为是的SB
对这个论坛彻底失望了


页首
 用户资料  
 
9 楼 
 文章标题 :
帖子发表于 : 2007-04-28 16:03 
头像

注册: 2006-04-12 20:05
帖子: 8495
地址: 杭州
送出感谢: 0 次
接收感谢: 8
哈哈,不错!


_________________
关注我的blog: ε==3


页首
 用户资料  
 
10 楼 
 文章标题 :
帖子发表于 : 2007-04-28 16:13 

注册: 2007-03-29 12:59
帖子: 262
送出感谢: 0 次
接收感谢: 0 次
我已经把程序改了一下,生成一个页面太大了,改成生成index.html.1 index.html.2这样的了,每页20张图片


页首
 用户资料  
 
11 楼 
 文章标题 :
帖子发表于 : 2007-05-10 23:14 
头像

注册: 2007-04-05 3:09
帖子: 842
地址: 身后某处
系统: Deepin
送出感谢: 2
接收感谢: 0 次
be a good gun


_________________
东方不败 写道:

    OS:Ubuntu14.10
    CPU:Athlon II 651K
    RAM:威刚DDR3 1600 4GX2双通道
    主板:GA-A75M-DS2
    硬盘:西数64M版 2T
    显卡:迅景6790
    显示器:LG W2242TP


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 11 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译