当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 48 篇帖子 ]  前往页数 上一页  1, 2, 3, 4  下一页
作者 内容
31 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-03-06 10:42 
头像

注册: 2009-11-02 12:02
帖子: 51
送出感谢: 0 次
接收感谢: 0 次
路漫漫长其修远兮,吾将上下而求索!

随便看了几个任务,各个都头大啊


_________________
Ubuntu 10.04 LTS
路漫漫长其修远兮,吾将上下而求索!
http://blog.sina.com.cn/linux777


页首
 用户资料  
 
32 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-05-01 16:31 

注册: 2011-02-12 22:49
帖子: 10
送出感谢: 0 次
接收感谢: 0 次
好高深的感觉。。


页首
 用户资料  
 
33 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-05-14 8:02 

注册: 2011-02-28 0:27
帖子: 27
送出感谢: 0 次
接收感谢: 0 次
既然没有PHP,俺贴个PHP吧,相当丑陋的。。。
代码:
<?php
   $url = '怪叔叔喜欢的网站';
   $content = file_get_contents($url);
   $content = $content . '<img src="abc.def/abc.jpg" />';
   preg_match_all('/img\s+src\s*="(.*?)"/', $content, $matches, PREG_SET_ORDER);
   echo count($matches) . "</br></br>";

   foreach ($matches as $val){
      //echo $val[0] . "</br>";
      $pic_url = $val[1];
      if (strpos($val[1], '//') !== false){
         ;
      }
      elseif (preg_match('@^(.*?)/@', $val[1], $inner_matches) == 0){
         //echo $url . $val[1] . "<br />";
         $pic_url = $url . $val[1];
      }
      elseif (preg_match('@[:.]@', $inner_matches[1], $tmp_matches) == 0){
            //echo $url . $val[1] . "<br />";
            $pic_url = $url . $val[1];
      }
      $pic = file_get_contents($pic_url);
      if ($pic === FALSE){
         continue;
      }
      preg_match('@/([^/]+)$@', $pic_url, $tmp_matches);
      // may use assert
      $pic_file_name = $tmp_matches[1];      
      $f = fopen("/home/robit/pic/" . $pic_file_name, "wb");
      fwrite($f, $pic);
      fclose($f);
   }
   echo "<br/><br/>DownLoad Complete!<br/><br/>";
   //echo htmlentities($content);
?>



页首
 用户资料  
 
34 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-05-14 8:04 

注册: 2011-02-28 0:27
帖子: 27
送出感谢: 0 次
接收感谢: 0 次
俺的换行符号被吃掉了。。。。。。 晕。。。 br2nl么。。晕。。。


页首
 用户资料  
 
35 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-06-03 20:08 
头像

注册: 2011-01-26 17:52
帖子: 9015
地址: 万林丛中的一抹浓绿,夹带落日余晖的安祥
送出感谢: 0 次
接收感谢: 0 次
pocoyo 写道:
tenzu 写道:
10L的头像。。。

我靠 受不了了。。。。

真的受不鸟了


_________________
Just do it, you will succeed!


页首
 用户资料  
 
36 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-06-03 20:32 
头像

注册: 2008-05-03 1:53
帖子: 961
送出感谢: 19
接收感谢: 11
SmallV 写道:
pocoyo 写道:
tenzu 写道:
10L的头像。。。

我靠 受不了了。。。。

真的受不鸟了

欣赏了会儿,翻页的时候居然有点不舍的又看了一眼 :em05


_________________
docker && kubernetes


页首
 用户资料  
 
37 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-06-03 20:33 
头像

注册: 2010-10-07 14:23
帖子: 33999
地址: 某系某星某洲某国某省某市
系统: Archdows10
送出感谢: 29
接收感谢: 151
SmallV 写道:
pocoyo 写道:
tenzu 写道:
10L的头像。。。

我靠 受不了了。。。。

真的受不鸟了

和饭团的有的一拼 :em04


_________________
心似浮云常自在,意如流水任东西。
此事背后一定有个天大的咪咪
广告:
1、走过路过,不要错过,dropbox网盘2.25G大放送
py大法好,退C保平安
java多妖孽,VB本异端
日诵一千遍,快活似神仙


页首
 用户资料  
 
38 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2011-06-16 22:12 
头像

注册: 2010-04-07 17:49
帖子: 159
送出感谢: 0 次
接收感谢: 0 次
:em20 那些语言没看懂。。小弟不才啊


页首
 用户资料  
 
39 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2012-06-29 20:51 

注册: 2012-06-02 18:28
帖子: 16
送出感谢: 0 次
接收感谢: 0 次
roylez 写道:
纯属无聊了

代码:
#!/usr/bin/env ruby
# coding: utf-8
#Author: Roy L Zuo (roylzuo at gmail dot com)
require 'open-uri'
require 'hpricot'

def parse_img_list(url)
    u = URI.parse(url)
    p = Hpricot.parse(open(url).read)
    img = (p/"img").collect {|v| u.merge(v.attributes['src']).to_s}.uniq.sort
end

def buster_img_list(*list)
    list.collect {|i|
        Thread.new { open(i.split("/").last,'wb') {|f| f.puts open(i).read } }
    }.each {|t| t.join}
end

if __FILE__==$0
    require 'optparse'
    options = {}
    parser = OptionParser.new { |opts|
        opts.banner = "Usage: #{$0} [-l] URL"
        options[:list_only] = false
        opts.on('-l','--list-only','显示图片列表') { options[:list_only] = true }
    }
    parser.parse!
    exit unless ARGV[0]
    l = parse_img_list ARGV[0]
    options[:list_only] ? l.each{|u| puts u } : (buster_img_list *l )
end


代码:
roylez@Lancelot> ruby imgbuster.rb -h
Usage: imgbuster.rb [-l] URL
    -l, --list-only                  显示图片列表
roylez@Lancelot> ruby imgbuster.rb -l http://forum.ubuntu.org.cn
http://forum.ubuntu.org.cn/styles/UbuntuCN/imageset/forum_read.gif
http://forum.ubuntu.org.cn/styles/UbuntuCN/imageset/forum_read_locked.gif
http://forum.ubuntu.org.cn/styles/UbuntuCN/imageset/forum_read_subforum.gif
http://forum.ubuntu.org.cn/styles/UbuntuCN/imageset/forum_unread.gif
http://forum.ubuntu.org.cn/styles/UbuntuCN/imageset/icon_topic_latest.gif
http://forum.ubuntu.org.cn/styles/UbuntuCN/theme/images/icon_mini_faq.gif
http://forum.ubuntu.org.cn/styles/UbuntuCN/theme/images/icon_mini_login.gif
http://forum.ubuntu.org.cn/styles/UbuntuCN/theme/images/icon_mini_register.gif
http://forum.ubuntu.org.cn/styles/UbuntuCN/theme/images/whosonline.gif




高人阿,这些代码放在哪里阿 ?求解


页首
 用户资料  
 
40 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2012-07-12 9:17 
头像

注册: 2011-06-13 9:56
帖子: 19
送出感谢: 0 次
接收感谢: 1
曾经用python写过一个抓取XX网页上的图片,但是发现众多的XX网的图片格式没什么共同点,用正则匹配实在是不能考虑周全,
后来用的时候都是临时写正则的。。
代码:
import urllib
import re
import urllib2
urlItem = urllib.urlopen("http://wang153723482.blog.163.com/blog/static/118649845201061053229326/")#网页地址
htmlSource = urlItem.read()
urlItem.close()

p = re.compile(r'http://img.*\.126\.net/[a-zA-Z0-9_-]*==/[0-9]*\.jpg')#匹配页面上图片的地址

i = 1
for m in p.finditer(htmlSource):
    opener = urllib2.build_opener()
    page = opener.open(m.group())
    my_picture = page.read()
    fileObj = open("img"+str(i)+".jpg","wb")
    fileObj.write(my_picture)
    i+=1


在线调试正则: http://regexpal.com/ http://www.osctools.net/


_________________
---人在做,天在看.


页首
 用户资料  
 
41 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2012-09-05 16:12 

注册: 2011-05-27 16:16
帖子: 2
送出感谢: 0 次
接收感谢: 0 次
代码:
#!/bin/bash
#定义图片格式,需要的就自己添加。
s="\.jpg|\.png|\.gif"
read -p "Pls. input a url : " url
ul=`curl -s -m 10  "$url" | sed -n 's/\"/\n/gp' | grep ^http | grep $s\$`
wget -c $ul



随便做一个 粗糙了一些 :em09


页首
 用户资料  
 
42 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2012-10-02 23:23 
头像

注册: 2011-01-31 12:55
帖子: 137
送出感谢: 0 次
接收感谢: 0 次
我来慢慢理解,边学习,边理解。


_________________
http://www.qiujingyu.com


页首
 用户资料  
 
43 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2012-10-30 21:38 

注册: 2010-05-12 11:41
帖子: 59
系统: xubuntu 12.04
送出感谢: 0 次
接收感谢: 0 次
代码:
from pyquery import PyQuery

url='http://forum.ubuntu.org.cn/'
d=PyQuery(url=url)

for anchor in d("img"):
   print PyQuery(anchor).make_links_absolute().attr('src')


页首
 用户资料  
 
44 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2013-01-25 21:01 
头像

注册: 2011-02-11 12:02
帖子: 54
系统: cent Ub winxp,03,7,8
送出感谢: 0 次
接收感谢: 0 次
php,三分钟.
利用php-simple-dom.
代码:
<?php
include('php-simple-dom.php');
$html->get("网页地址");$srcs=null;
foreach($html->find('a') as $src){
$srcs=$srcs.$src->src."\r\n";
}
echo $srcs;


_________________
代码:
#include <code>
<? Using System.Application.Php; __halt_compiler__ ?>
代码:
>@import mysql;
 Query OK.(0.001s)
>SELECT * FROM 0x627261696e;
 Empty set.(0.001s)

md5 crack:http://md5.emce.org,billions of records all for free.


页首
 用户资料  
 
45 楼 
 文章标题 : Re: [二星]程序开发,不限语言,抓取网页中的图片
帖子发表于 : 2013-02-28 14:05 

注册: 2013-02-05 12:51
帖子: 23
系统: ubuntu12.04LTS
送出感谢: 0 次
接收感谢: 0 次
俺以前用matlab写过,把网页里的图片链接都提出来成txt,然后批量自动下载,就是那个beautiful leg 的sara的吧,还些过把网页二级链接子网页合并加书签,结果有的一下10—20MB多,除了IE,FF外Frontpage,dm什么的全弄不了


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 48 篇帖子 ]  前往页数 上一页  1, 2, 3, 4  下一页

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 1 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译