当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 2 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
帖子发表于 : 2010-01-15 17:03 

注册: 2008-08-07 18:56
帖子: 13
送出感谢: 0 次
接收感谢: 0 次
本人shell脚本知识正在学习。工作需要,想抓取一个页面上某个框架里的文本数据。请大>家帮帮。

1、我要抓取的网站页面如下:http://www.yizlife.com/shzn/(参看附件里的“网站页面01.png”)
2、它里面总共12页,共25个分类。我想是否可以有个脚本来抓取这些数据,以文本形式保>存即可。我想要4个数据值:商家名称;商家地址,商家电话,商家类型。数据值间以TAB键
间隔。
3、请大家帮帮。


附件:
文件注释: 这个框架数据的默认状态。
网站页面01.png
网站页面01.png [ 168.9 KiB | 被浏览 305 次 ]

页首
 用户资料  
 
2 楼 
 文章标题 : Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
帖子发表于 : 2010-01-18 16:15 

注册: 2008-11-01 21:42
帖子: 1028
地址: 树下板凳
送出感谢: 0 次
接收感谢: 1
咋几天都没人帮lz搞了?发一个娱乐版本
代码:
sw@~$wget -qO - --timeout 12 -t 4 "http://www.yizlife.com/shzn/" >/tmp/ah.txt;iconv -f gb2312 -t utf-8 /tmp/ah.txt|grep  -o "title='[^']*' *[^ ]*[^_]*" | cat d.txt |sed -e "s/title=[']*\([^']*\)[^>]*>[^<]*[^0-9]*[^>]*>\([^ ]*\)[^0-9]*\([0-9]*\)<\/td><td>\([^<]*\).*/\1\t\4\t\3\t\2/"
完全宠物   境界底商   67897115   宠物天地
比瑞吉康悦动物医院   大雄城市花园底商   67866757   宠物天地
普瑞德金威动物医院   大雄花园天华园2区11号楼底商   67861538   宠物天地
青鸟瑜珈   格林小镇会所三层   67869690   健身娱乐
中体倍力健身俱乐部   上海沙龙商业中心   67820488   健身娱乐
三力酷动健身中心   大雄商业楼   67890611   健身娱乐
英派斯健身俱乐部   卡尔公寓   67820707   健身娱乐
亦隆台球城   上海沙龙商业楼三层   67829188   健身娱乐
青年假日酒店   贵园南路6号   67895716   酒店宾馆
北京圣坤酒店   天华南街3号院   67868866   酒店宾馆
亦庄天宝速8酒店   天宝北街1号   67897575   酒店宾馆
格林豪泰酒店   亦庄开发区邮局附近   67850998   酒店宾馆
锦江之星开发区店      BDA国际企业大道内   67856363   酒店宾馆
爱义行亦庄店   开发区境界底商53号   67826511   汽车服务
北京冀贵汽车贸易有限公司   开发区东环北路北1号   67880999   汽车服务
运通博雅汽车销售服务有限公司   开发区东环北路乙1号南厅   67888777   汽车服务
北京联拓诚信马自达销售服务店   开发区万源街15号   67880752   汽车服务
科之华设计印务   亦庄开发区天华北街7号14-1-302   67830064   图文制作
sw@~$


_________________
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 2 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 1 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译