[问题]需要从html里面提取特定的链接。

sh/bash/dash/ksh/zsh等Shell脚本
回复
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙
送出感谢: 4 次
接收感谢: 256 次

[问题]需要从html里面提取特定的链接。

#1

帖子 eexpress » 2007-11-13 13:24

取得绿色的链接部分,当时蓝色的日期(一栏的第一个日期)要适合输入参数。整个脚本,输出符合的链接到一文本而已。
在想,sed怎么写,先要根据每个 <tr> 合并成一行。再 sed -r '/(href="viewtopic.php?t=.*")(2007-11-11)/1p' xxx.html > xxxx.txt ?????????
就是论坛的html呢。后期格式问题无所谓。只要输出链接。有些混乱了。不会要awk脚本吧。
附件
screenshot-2007-11-13-13-13-56.png
● 鸣学
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙
送出感谢: 4 次
接收感谢: 256 次

#2

帖子 eexpress » 2007-11-13 15:08

cat """$1""" |tr '>' '\n'|tr '"' '\n'|grep "^[0-9][0-9]-\|^show.*html"|sed "s/\ [0-9][0-9]:.*$//">tmp.html

剩下要删除重复的日期行。
11-09-2007
11-10-2007


发现2行日期,就删除下面的。怎么写。。。sed?

showthread_627497.html
11-09-2007
11-10-2007 <-----------删除
showthread_583776.html
09-02-2006
11-10-2007 <-----------删除
● 鸣学
baic
帖子: 166
注册时间: 2006-08-22 23:10
送出感谢: 0
接收感谢: 0

#3

帖子 baic » 2007-11-13 15:53

echo 1 > /tmp/a
echo 1 >> /tmp/a
echo 2 >> /tmp/a
cat /tmp/a
uniq /tmp/a
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙
送出感谢: 4 次
接收感谢: 256 次

#4

帖子 eexpress » 2007-11-20 0:57

l结尾的,‘\n’变‘,’
● 鸣学
回复

回到 “Shell脚本”