当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 1 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : [python][已解决]如何恢复链接的绝对路径?
帖子发表于 : 2009-02-26 17:17 
头像

注册: 2007-01-16 21:27
帖子: 76
地址: 上海
送出感谢: 0 次
接收感谢: 0 次
我提取出网页http://www.opensolaris.org/os/community/on/flag-days/all/的一段代码如下
代码:
<tr class="build"><th colspan="0">Build 110</th></tr> <tr class="arccase project flagday"><td>Feb-25</td><td></td><td></td><td></td><td><a href="../pages/2009022501/">Flag Day and Heads Up: Power Aware Dispatcher and Deep C-States</a><br />cpupm keyword mode extensions - <a href="/os/community/arc/caselog/2008/777/">PSARC/2008/777</a><br /> CPU Deep Idle Keyword - <a href="/os/community/arc/caselog/2008/663/">PSARC/2008/663</a><br /></td></tr>


里面的链接都是相对路径 而我想把它们换成绝对路径:
代码:
<tr class="build"><th colspan="0">Build 110</th></tr> <tr class="arccase project flagday"><td>Feb-25</td><td></td><td></td><td></td><td><a href="http://www.opensolaris.org/os/community/on/flag-days/all//pages/2009022501/">Flag Day and Heads Up: Power Aware Dispatcher and Deep C-States</a><br />cpupm keyword mode extensions - <a href="http://www.opensolaris.org/os/community/arc/caselog/2008/777/">PSARC/2008/777</a><br /> CPU Deep Idle Keyword - <a href="http://www.opensolaris.org/os/community/arc/caselog/2008/663/">PSARC/2008/663</a><br /></td></tr>


html 不是正则的语言 所以正则表达式不是最好的解决方案 还是用html解析会好一些
推荐Beautiful Soup 几行代码就搞定了 哈哈~

代码:
    base_url = "http://www.opensolaris.org/os/community/on/flag-days/"
    soup = BeautifulSoup(html_text)
    link_set = soup.findAll('a')
    links = [ e['href'] for e in link_set ]
    #get html_text
    for e in links:
        html_text = string.replace(html_text,e, urljoin(base_url,e),1)


_________________
_______________________________________
Ubuntu is not my all
But it makes me enjoy all my life


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 1 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 1 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译