分页: 1 / 1

[问题] 有分析网页的命令、程序或脚本吗?(基本解决)

发表于 : 2007-07-30 11:04
linpinger
想编写对网页进行分析的脚本
网页源代码中有以下一段:

代码: 全选

<a href="viewthread.php?tid=191276&extra=page%3D1%26amp%3Bfilter%3D0">标题aa</a>
想实现以下功能:
输入标题aa后,能得到它所指向的链接地址甚至其他信息

有这样的命令或程序吗

发表于 : 2007-07-30 11:43
laborer

代码: 全选

wget -q -O - www.ubuntu.com |
grep -o "<a[^<]*</a>" | 
sed 's/.*href="*\([^ ">]*\).*>\(.*\)<\/a>/\1 \2/' | 
awk '$0 ~ /Planet/ { print $1 }'
看看这个合意不,它的功能是在www.ubuntu.com主页上寻找名称中包含Planet的链接,并显示链接地址。

发表于 : 2007-07-30 12:27
eexpress
sed 之语法,人神共愤。既然是shell。不如用##字符串处理了。囗囗laborer,搞出这么强的sed。

发表于 : 2007-07-30 12:37
linpinger
虽然这些正则表达式暂时看不懂,但能用了
感谢laborer
我一开始使用cut,paste等命令来达到相同的目的,
但比你的方法要复杂,而且一旦网页格式变了后,
需要重新改参数
第一次发现正则表达式这么牛,继续学习
再次感谢laborer