当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 48 篇帖子 ]  前往页数 上一页  1, 2, 3, 4  下一页
作者 内容
16 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-03-14 21:33 
头像

注册: 2008-03-25 15:49
帖子: 25878
地址: 谁知道?
送出感谢: 8
接收感谢: 10
oneleaf 写道:
ok,给个简单的py
代码:
import urllib,re
u = 'http://forum.ubuntu.org.cn/'
html = urllib.urlopen(u).read()
li=re.findall('img src="*.*?"', html, re.S)
for item in li:
    print item
    item = item.replace('img src="','').replace('"','')
    urllib.urlretrieve(('' if item.find('http://')==0 else u)+'/'+item,item.split('/')[-1])

:em11 谢老大


页首
 用户资料  
 
17 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-03-15 10:33 

注册: 2006-01-03 20:44
帖子: 870
送出感谢: 0 次
接收感谢: 6
pocoyo 写道:
oneleaf 写道:
ok,给个简单的py
代码:
import urllib,re
u = 'http://forum.ubuntu.org.cn/'
html = urllib.urlopen(u).read()
li=re.findall('img src="*.*?"', html, re.S)
for item in li:
    print item
    item = item.replace('img src="','').replace('"','')
    urllib.urlretrieve(('' if item.find('http://')==0 else u)+'/'+item,item.split('/')[-1])

:em11 谢老大


谢谢老大.但是网址如果是像以下样式的则会出错.
http://image.baidu.com/i?ct=201326592&c ... %C4%B8&s=0


页首
 用户资料  
 
18 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-04-07 13:42 

注册: 2008-11-13 16:03
帖子: 817
送出感谢: 0 次
接收感谢: 0 次
pocoyo 写道:
tenzu 写道:
LS的头像。。。

我靠 受不了了。。。。

:em03 :em20


_________________
HP ProBook4321s,I3+ATI
OS : Fedora + Debian

http://box-look.org/


页首
 用户资料  
 
19 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-04-07 20:16 

注册: 2010-02-25 11:19
帖子: 557
送出感谢: 0 次
接收感谢: 0 次
写了这些行代码后如何在ubuntu上用呢? 步骤如何? 给个框架


页首
 用户资料  
 
20 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-05-10 8:47 
头像

注册: 2008-08-12 14:24
帖子: 415
送出感谢: 2
接收感谢: 0 次
我喜欢10楼的头像


页首
 用户资料  
 
21 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-07-03 20:10 
头像

注册: 2010-06-19 20:48
帖子: 20
送出感谢: 0 次
接收感谢: 0 次
引用:
oneleaf
经典 ,学习了。


_________________
无忧无虑怀孕


页首
 用户资料  
 
22 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-07-10 18:27 

注册: 2007-02-09 8:33
帖子: 93
地址: 深圳福田
送出感谢: 6
接收感谢: 1
用正则表达式,应该很短吧,感觉跟以上比,php最精练了。


页首
 用户资料  
 
23 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-07-12 15:48 

注册: 2008-10-31 22:12
帖子: 6546
系统: 践兔
送出感谢: 18
接收感谢: 25
oneleaf 写道:
ok,给个简单的py
代码:
import urllib,re
u = 'http://forum.ubuntu.org.cn/'
html = urllib.urlopen(u).read()
li=re.findall('img src="*.*?"', html, re.S)
for item in li:
    print item
    item = item.replace('img src="','').replace('"','')
    urllib.urlretrieve(('' if item.find('http://')==0 else u)+'/'+item,item.split('/')[-1])

叶大,不是所有的网页的图片都是<img src=xxx>的 :em06 :em06 :em06 ,Xhtml标准要求有alt,吾喜欢<img alt="xxx" src="xxx" />这个脚本就够不到了。
匹配连续n多个'"',确实不合理。

吾的长,是为了速度(cURL很快)和质量。(前面的脚本统统不能搞到<img alt="xxx" src="xxx" />这样的)


_________________
代码:
] ls -ld //


页首
 用户资料  
 
24 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-07-17 16:02 
头像

注册: 2006-10-25 18:08
帖子: 1582
送出感谢: 0 次
接收感谢: 0 次
代码:
#!/bin/bash
(($#!=1)) && echo "need a url " && exit
curl $1 | grep -o "img src=\"[^\"]*\"" | cut -f 2 -d'"' | wget -i -

:em03


_________________
楼主真是一派胡言,真可谓:“两个黄鹂鸣翠柳,不知所云;一行白鹭上青天,不知所止“。本来不想和你辩论,今天气愤不过,和你理论一番。我国宪法写得清清楚楚:“一夜夫妻百日恩,七楼以上才有电梯”。这个想必你知道,既然知道,你就不能断章取义,就算是天气预报,它还有不准的时候呢!!!再者说了,那中国银行也不是你一家开的。人家马拉多纳都结婚了,你还拿着粮票顶什么用呢。真是滑天下之大稽。前些日子,全国人大刚刚开过会,郑重声明:“中国不搞多party制,存栏母猪给补贴”。多好的事呢,楞让你这号人给搅混了。


页首
 用户资料  
 
25 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-07-19 14:56 

注册: 2010-07-19 14:55
帖子: 2
送出感谢: 0 次
接收感谢: 0 次
:em03


页首
 用户资料  
 
26 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-07-26 15:01 

注册: 2009-07-13 15:12
帖子: 30
送出感谢: 0 次
接收感谢: 0 次
HOHO~~ 学习 !~


页首
 用户资料  
 
27 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-07-31 19:22 
头像

注册: 2008-11-05 13:24
帖子: 1024
送出感谢: 0 次
接收感谢: 5
刚学shell,来个
代码:
#!/bin/sh
# -- picture.sh --

BASE_URL=$1
FILE="file.html"
gethtml() {
   wget -O $FILE $BASE_URL
}

if [ -z $1 ]; then
    echo "Please give the url."
else
    gethtml
fi

pic_url=`grep -o -P '(\/\w+)+\.(jpg|gif|png)' $FILE | \
    sed 's/^\///'`
for i in $pic_url; do
    last_url=${BASE_URL}/$i
    echo $last_url
    #wget $last_url
done


_________________
笔记
-------------------------------------
http://blog.163.com/wqt_1101


页首
 用户资料  
 
28 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-08-06 10:44 
头像

注册: 2008-12-13 19:45
帖子: 2
送出感谢: 0 次
接收感谢: 0 次
牛人太多了! :em03


页首
 用户资料  
 
29 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2010-12-16 19:22 

注册: 2007-05-06 10:56
帖子: 28
送出感谢: 1
接收感谢: 0 次
tusooa 写道:
oneleaf 写道:
ok,给个简单的py
代码:
import urllib,re
u = 'http://forum.ubuntu.org.cn/'
html = urllib.urlopen(u).read()
li=re.findall('img src="*.*?"', html, re.S)
for item in li:
    print item
    item = item.replace('img src="','').replace('"','')
    urllib.urlretrieve(('' if item.find('http://')==0 else u)+'/'+item,item.split('/')[-1])

叶大,不是所有的网页的图片都是<img src=xxx>的 :em06 :em06 :em06 ,Xhtml标准要求有alt,吾喜欢<img alt="xxx" src="xxx" />这个脚本就够不到了。
匹配连续n多个'"',确实不合理。

吾的长,是为了速度(cURL很快)和质量。(前面的脚本统统不能搞到<img alt="xxx" src="xxx" />这样的)


是re匹配的问题,你修改下匹配模板就可以了。
li=re.findall('img [^>]*?src="*.*?"', html, re.S)


页首
 用户资料  
 
30 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-01-07 17:04 

注册: 2010-12-30 14:17
帖子: 10
送出感谢: 0 次
接收感谢: 0 次
python里做过


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 48 篇帖子 ]  前往页数 上一页  1, 2, 3, 4  下一页

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 2 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译