当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 4 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : [问题]需要从html里面提取特定的链接。
帖子发表于 : 2007-11-13 13:24 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
取得绿色的链接部分,当时蓝色的日期(一栏的第一个日期)要适合输入参数。整个脚本,输出符合的链接到一文本而已。
在想,sed怎么写,先要根据每个 <tr> 合并成一行。再 sed -r '/(href="viewtopic.php?t=.*")(2007-11-11)/1p' xxx.html > xxxx.txt ?????????
就是论坛的html呢。后期格式问题无所谓。只要输出链接。有些混乱了。不会要awk脚本吧。


附件:
screenshot-2007-11-13-13-13-56.png
screenshot-2007-11-13-13-13-56.png [ 571.05 KiB | 被浏览 609 次 ]



_________________
● 鸣学
页首
 用户资料  
 
2 楼 
 文章标题 :
帖子发表于 : 2007-11-13 15:08 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
cat """$1""" |tr '>' '\n'|tr '"' '\n'|grep "^[0-9][0-9]-\|^show.*html"|sed "s/\ [0-9][0-9]:.*$//">tmp.html

剩下要删除重复的日期行。
引用:
11-09-2007
11-10-2007


发现2行日期,就删除下面的。怎么写。。。sed?

showthread_627497.html
11-09-2007
11-10-2007 <-----------删除
showthread_583776.html
09-02-2006
11-10-2007 <-----------删除


_________________
● 鸣学


页首
 用户资料  
 
3 楼 
 文章标题 :
帖子发表于 : 2007-11-13 15:53 

注册: 2006-08-22 23:10
帖子: 166
送出感谢: 0 次
接收感谢: 0 次
echo 1 > /tmp/a
echo 1 >> /tmp/a
echo 2 >> /tmp/a
cat /tmp/a
uniq /tmp/a


页首
 用户资料  
 
4 楼 
 文章标题 :
帖子发表于 : 2007-11-20 0:57 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
l结尾的,‘\n’变‘,’


_________________
● 鸣学


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 4 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 1 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译