sh/bash/dash/ksh/zsh等Shell脚本
-
linpinger
- 帖子: 54
- 注册时间: 2006-06-15 22:44
#1
帖子
由 linpinger » 2007-07-30 11:04
想编写对网页进行分析的脚本
网页源代码中有以下一段:
代码: 全选
<a href="viewthread.php?tid=191276&extra=page%3D1%26amp%3Bfilter%3D0">标题aa</a>
想实现以下功能:
输入标题aa后,能得到它所指向的链接地址甚至其他信息
有这样的命令或程序吗
-
laborer
- 帖子: 1016
- 注册时间: 2005-10-25 11:15
-
联系:
#2
帖子
由 laborer » 2007-07-30 11:43
代码: 全选
wget -q -O - www.ubuntu.com |
grep -o "<a[^<]*</a>" |
sed 's/.*href="*\([^ ">]*\).*>\(.*\)<\/a>/\1 \2/' |
awk '$0 ~ /Planet/ { print $1 }'
看看这个合意不,它的功能是在www.ubuntu.com主页上寻找名称中包含Planet的链接,并显示链接地址。
hreiser@oakland:~$ killall -9 wife
police@oakland:~$ sudo find / -user hreiser
court@oakland:~$ sudo mv /home/hreiser /jail/
court@oakland:~$ sudo usermod -d /jail/hreiser -s "/usr/sbin/chroot /jail/" hreiser
-
eexpress
- 帖子: 58428
- 注册时间: 2005-08-14 21:55
- 来自: 长沙
#3
帖子
由 eexpress » 2007-07-30 12:27
sed 之语法,人神共愤。既然是shell。不如用##字符串处理了。囗囗laborer,搞出这么强的sed。
● 鸣学
-
linpinger
- 帖子: 54
- 注册时间: 2006-06-15 22:44
#4
帖子
由 linpinger » 2007-07-30 12:37
虽然这些正则表达式暂时看不懂,但能用了
感谢laborer
我一开始使用cut,paste等命令来达到相同的目的,
但比你的方法要复杂,而且一旦网页格式变了后,
需要重新改参数
第一次发现正则表达式这么牛,继续学习
再次感谢laborer