当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 4 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 用Ruby脚本抓取百度MP3新歌Top 100
帖子发表于 : 2009-03-04 22:07 
头像

注册: 2007-05-08 16:26
帖子: 2058
地址: 火星内核某分子内某原子核内
系统: arch
送出感谢: 20
接收感谢: 6
代码:
require 'rubygems'
require 'hpricot'
require 'open-uri'
require 'iconv'

def _mktab(x)
  t0 = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
  p = t0.partition(x)
  p[1] + p[2] + p[0]
end

def decode(s)
  s.tr(_mktab(s[0].chr), s=~ /....:\// ? _mktab('h') : _mktab('f')) #http|ftp
end

def tiny_url(url, encode = false)
  result = open(encode ? URI.encode("http://tinyurl.com/api-create.php?url=#{url}") : "http://tinyurl.com/api-create.php?url=#{url}").read
  result =~ /^Error/ ? url : result
end

def actual_download_url(search_url, limit = 2)
  doc = Hpricot(open(search_url))
  doc.search("table#Tbs td.d a").map{|a| a.attributes["href"]}[0..limit].map {|url|
    decode(open(URI.encode(url)).read[/var I="([^"]*)"/, 1])
  }
end

def get_maidu_mp3_top100
  url = "http://list.mp3.baidu.com/list/newhits.html"
  doc = Hpricot(Iconv.conv("UTF8", "GBK", open(url).read))
  result = {}
  doc.search("table.list td:not(.th)").each{|t|
    name = t.inner_text.gsub(/\s+/, " ")
    search_url = t.search("a")[0].attributes["href"]
    result[name] = search_url
  }
  return result
end

def get_new_data
  local_data = File.open('data.yaml') { |file| YAML::load(file) } rescue {}
  remote_data = get_maidu_mp3_top100
  new_data = {}
  remote_data.each_pair { |key, value|
    unless local_data.has_key?(key)
      local_data[key] = value
      new_data[key] = value
    end
  }
  File.open('data.yaml', 'w') { |file| YAML.dump(local_data, file) }
  return new_data
end
 


原文: http://www.javaeye.com/topic/336765


_________________
笔记本 :
F208S : gentoo
A460P i3G D6 : UBUNTU + WIN7
UN43D1 : UBUNTU + WIN7
1000人超级QQ群 LINUX + WIN : 31465544 或 18210387


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 用Ruby脚本抓取百度MP3新歌Top 100
帖子发表于 : 2009-03-05 11:02 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
幸好ruby基础了perl的精华。


_________________
● 鸣学


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 用Ruby脚本抓取百度MP3新歌Top 100
帖子发表于 : 2009-03-05 11:16 
头像

注册: 2006-10-19 8:43
帖子: 787
地址: 长江口
送出感谢: 1
接收感谢: 2
这个脚本能用?

我记得最近百度把下载页面地址放在js中生成了,貌似一个简单的加密,无法直接抓到了(在python中复制了该js,是可以解出正确的地址的,不过觉得百度太恶,干脆懒得上百度找歌了)


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 用Ruby脚本抓取百度MP3新歌Top 100
帖子发表于 : 2009-03-05 12:04 
头像

注册: 2007-11-29 9:41
帖子: 8455
送出感谢: 0 次
接收感谢: 0 次
ruby 不会用


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 4 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 2 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译