当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 4 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : [问题] 有分析网页的命令、程序或脚本吗?(基本解决)
帖子发表于 : 2007-07-30 11:04 
头像

注册: 2006-06-15 22:44
帖子: 54
送出感谢: 0 次
接收感谢: 0 次
想编写对网页进行分析的脚本
网页源代码中有以下一段:
代码:
<a href="viewthread.php?tid=191276&amp;extra=page%3D1%26amp%3Bfilter%3D0">标题aa</a>

想实现以下功能:
输入标题aa后,能得到它所指向的链接地址甚至其他信息

有这样的命令或程序吗


最后由 linpinger 编辑于 2007-07-30 12:42,总共编辑了 1 次

页首
 用户资料  
 
2 楼 
 文章标题 :
帖子发表于 : 2007-07-30 11:43 
头像

注册: 2005-10-25 11:15
帖子: 1016
送出感谢: 0 次
接收感谢: 1
代码:
wget -q -O - www.ubuntu.com |
grep -o "<a[^<]*</a>" |
sed 's/.*href="*\([^ ">]*\).*>\(.*\)<\/a>/\1 \2/' |
awk '$0 ~ /Planet/ { print $1 }'

看看这个合意不,它的功能是在www.ubuntu.com主页上寻找名称中包含Planet的链接,并显示链接地址。


_________________
hreiser@oakland:~$ killall -9 wife
police@oakland:~$ sudo find / -user hreiser
court@oakland:~$ sudo mv /home/hreiser /jail/
court@oakland:~$ sudo usermod -d /jail/hreiser -s "/usr/sbin/chroot /jail/" hreiser


页首
 用户资料  
 
3 楼 
 文章标题 :
帖子发表于 : 2007-07-30 12:27 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
sed 之语法,人神共愤。既然是shell。不如用##字符串处理了。囗囗laborer,搞出这么强的sed。


_________________
● 鸣学


页首
 用户资料  
 
4 楼 
 文章标题 :
帖子发表于 : 2007-07-30 12:37 
头像

注册: 2006-06-15 22:44
帖子: 54
送出感谢: 0 次
接收感谢: 0 次
虽然这些正则表达式暂时看不懂,但能用了
感谢laborer
我一开始使用cut,paste等命令来达到相同的目的,
但比你的方法要复杂,而且一旦网页格式变了后,
需要重新改参数
第一次发现正则表达式这么牛,继续学习
再次感谢laborer


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 4 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 2 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译