当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 5 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 提问: 怎样用vim提取网页源文件中符合要求的超链接。
帖子发表于 : 2010-12-07 14:53 

注册: 2010-10-11 10:28
帖子: 3
送出感谢: 0 次
接收感谢: 0 次
比如把: http://bbs.ubuntu.org.cn/10位数字.htm
格式的都留下并以换行显示,其他内容都删掉。
因为业务经常会有这种需求,不知道万能的VI,能否满足我小小的要求 :em04


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 提问: 怎样用vim提取网页源文件中符合要求的超链接。
帖子发表于 : 2010-12-07 15:03 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 274
代码:
● cat ~/bin/unused-script/fetch-link.pl
#!/usr/bin/perl

use LWP::UserAgent;
my $url=shift;
#my $url='http://forum.ubuntu.org.cn/search.php?search_id=newposts';
#my $url='http://doc.linuxpk.com/2970.html';
my $ua=new LWP::UserAgent();
my $re= $ua->get($url);
die if (!$re->is_success);
my $html= $re->content;

#得到页面中所有链接
while($html=~m{<a href=(["'])(.*?)\1.*?>(<.*?/>)*(.*?)</a>}gsi){
#print "$2\t--->$4\n";
my $l=$2; my $t=$4;if($l=~/^http/ and $l!~/com\/$|cn\/$/ and $t!~/^</){print "$l\t--->$t\n";}
}

万能的是pl


_________________
● 鸣学


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 提问: 怎样用vim提取网页源文件中符合要求的超链接。
帖子发表于 : 2010-12-07 15:30 

注册: 2009-06-20 23:53
帖子: 490
送出感谢: 3
接收感谢: 0 次

正则表达式
无论是vim正则还是shell perl python都行。


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 提问: 怎样用vim提取网页源文件中符合要求的超链接。
帖子发表于 : 2010-12-07 15:55 

注册: 2010-10-11 10:28
帖子: 3
送出感谢: 0 次
接收感谢: 0 次
谢谢2楼! 我学习一下


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 提问: 怎样用vim提取网页源文件中符合要求的超链接。
帖子发表于 : 2010-12-07 16:37 
头像

注册: 2009-04-11 23:46
帖子: 4130
系统: Arch Linux
送出感谢: 11
接收感谢: 124
二楼真麻烦。
代码:
grep -oP 'http://bbs\.ubuntu\.org\.cn/\d{10}\.htm'


这种东西,你首先得会正则表达式,其次学下 sed grep awk sort uniq 等文本处理工具。Perl 更强大,但是很难学。Python/Ruby 之类的对付复杂的处理也很不错。


_________________
我的博客 https://blog.lilydjwg.me/
提问的智慧
Arch Linux 中文论坛

我的vimrc: https://git.io/vimrc


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 5 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 1 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译