本人shell脚本知识正在学习。工作需要,想抓取一个页面上某个框架里的文本数据。请大>家帮帮。
1、我要抓取的网站页面如下:http://www.yizlife.com/shzn/(参看附件里的“网站页面01.png”)
2、它里面总共12页,共25个分类。我想是否可以有个脚本来抓取这些数据,以文本形式保>存即可。我想要4个数据值:商家名称;商家地址,商家电话,商家类型。数据值间以TAB键
间隔。
3、请大家帮帮。
求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
-
- 帖子: 13
- 注册时间: 2008-08-07 18:56
-
- 帖子: 1028
- 注册时间: 2008-11-01 21:42
- 来自: 树下板凳
Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。
咋几天都没人帮lz搞了?发一个娱乐版本
代码: 全选
sw@~$wget -qO - --timeout 12 -t 4 "http://www.yizlife.com/shzn/" >/tmp/ah.txt;iconv -f gb2312 -t utf-8 /tmp/ah.txt|grep -o "title='[^']*' *[^ ]*[^_]*" | cat d.txt |sed -e "s/title=[']*\([^']*\)[^>]*>[^<]*[^0-9]*[^>]*>\([^ ]*\)[^0-9]*\([0-9]*\)<\/td><td>\([^<]*\).*/\1\t\4\t\3\t\2/"
完全宠物 境界底商 67897115 宠物天地
比瑞吉康悦动物医院 大雄城市花园底商 67866757 宠物天地
普瑞德金威动物医院 大雄花园天华园2区11号楼底商 67861538 宠物天地
青鸟瑜珈 格林小镇会所三层 67869690 健身娱乐
中体倍力健身俱乐部 上海沙龙商业中心 67820488 健身娱乐
三力酷动健身中心 大雄商业楼 67890611 健身娱乐
英派斯健身俱乐部 卡尔公寓 67820707 健身娱乐
亦隆台球城 上海沙龙商业楼三层 67829188 健身娱乐
青年假日酒店 贵园南路6号 67895716 酒店宾馆
北京圣坤酒店 天华南街3号院 67868866 酒店宾馆
亦庄天宝速8酒店 天宝北街1号 67897575 酒店宾馆
格林豪泰酒店 亦庄开发区邮局附近 67850998 酒店宾馆
锦江之星开发区店 BDA国际企业大道内 67856363 酒店宾馆
爱义行亦庄店 开发区境界底商53号 67826511 汽车服务
北京冀贵汽车贸易有限公司 开发区东环北路北1号 67880999 汽车服务
运通博雅汽车销售服务有限公司 开发区东环北路乙1号南厅 67888777 汽车服务
北京联拓诚信马自达销售服务店 开发区万源街15号 67880752 汽车服务
科之华设计印务 亦庄开发区天华北街7号14-1-302 67830064 图文制作
sw@~$
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。