[问题] 有分析网页的命令、程序或脚本吗?(基本解决)

sh/bash/dash/ksh/zsh等Shell脚本
回复
头像
linpinger
帖子: 54
注册时间: 2006-06-15 22:44
送出感谢: 0
接收感谢: 0
联系:

[问题] 有分析网页的命令、程序或脚本吗?(基本解决)

#1

帖子 linpinger » 2007-07-30 11:04

想编写对网页进行分析的脚本
网页源代码中有以下一段:

代码: 全选

<a href="viewthread.php?tid=191276&amp;extra=page%3D1%26amp%3Bfilter%3D0">标题aa</a>

想实现以下功能:
输入标题aa后,能得到它所指向的链接地址甚至其他信息

有这样的命令或程序吗
上次由 linpinger 在 2007-07-30 12:42,总共编辑 1 次。
头像
laborer
帖子: 1016
注册时间: 2005-10-25 11:15
送出感谢: 0
接收感谢: 1 次
联系:

#2

帖子 laborer » 2007-07-30 11:43

代码: 全选

wget -q -O - www.ubuntu.com |
grep -o "<a[^<]*</a>" |
sed 's/.*href="*\([^ ">]*\).*>\(.*\)<\/a>/\1 \2/' |
awk '$0 ~ /Planet/ { print $1 }'

看看这个合意不,它的功能是在www.ubuntu.com主页上寻找名称中包含Planet的链接,并显示链接地址。
hreiser@oakland:~$ killall -9 wife
police@oakland:~$ sudo find / -user hreiser
court@oakland:~$ sudo mv /home/hreiser /jail/
court@oakland:~$ sudo usermod -d /jail/hreiser -s "/usr/sbin/chroot /jail/" hreiser
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙
送出感谢: 4 次
接收感谢: 256 次

#3

帖子 eexpress » 2007-07-30 12:27

sed 之语法,人神共愤。既然是shell。不如用##字符串处理了。囗囗laborer,搞出这么强的sed。
● 鸣学
头像
linpinger
帖子: 54
注册时间: 2006-06-15 22:44
送出感谢: 0
接收感谢: 0
联系:

#4

帖子 linpinger » 2007-07-30 12:37

虽然这些正则表达式暂时看不懂,但能用了
感谢laborer
我一开始使用cut,paste等命令来达到相同的目的,
但比你的方法要复杂,而且一旦网页格式变了后,
需要重新改参数
第一次发现正则表达式这么牛,继续学习
再次感谢laborer
回复

回到 “Shell脚本”