求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

sh/bash/dash/ksh/zsh等Shell脚本
回复
wanghonglou
帖子: 13
注册时间: 2008-08-07 18:56

求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

#1

帖子 wanghonglou » 2010-01-15 17:03

本人shell脚本知识正在学习。工作需要,想抓取一个页面上某个框架里的文本数据。请大>家帮帮。

1、我要抓取的网站页面如下:http://www.yizlife.com/shzn/(参看附件里的“网站页面01.png”)
2、它里面总共12页,共25个分类。我想是否可以有个脚本来抓取这些数据,以文本形式保>存即可。我想要4个数据值:商家名称;商家地址,商家电话,商家类型。数据值间以TAB键
间隔。
3、请大家帮帮。
附件
这个框架数据的默认状态。
这个框架数据的默认状态。
t3swing
帖子: 1028
注册时间: 2008-11-01 21:42
来自: 树下板凳

Re: 求助:工作需要,想抓取一个页面上某个框架里的文本数据。请大家帮帮。

#2

帖子 t3swing » 2010-01-18 16:15

咋几天都没人帮lz搞了?发一个娱乐版本

代码: 全选

sw@~$wget -qO - --timeout 12 -t 4 "http://www.yizlife.com/shzn/" >/tmp/ah.txt;iconv -f gb2312 -t utf-8 /tmp/ah.txt|grep  -o "title='[^']*' *[^ ]*[^_]*" | cat d.txt |sed -e "s/title=[']*\([^']*\)[^>]*>[^<]*[^0-9]*[^>]*>\([^ ]*\)[^0-9]*\([0-9]*\)<\/td><td>\([^<]*\).*/\1\t\4\t\3\t\2/"
完全宠物	境界底商	67897115	宠物天地
比瑞吉康悦动物医院	大雄城市花园底商	67866757	宠物天地
普瑞德金威动物医院	大雄花园天华园2区11号楼底商	67861538	宠物天地
青鸟瑜珈	格林小镇会所三层	67869690	健身娱乐
中体倍力健身俱乐部	上海沙龙商业中心	67820488	健身娱乐
三力酷动健身中心	大雄商业楼	67890611	健身娱乐
英派斯健身俱乐部	卡尔公寓	67820707	健身娱乐
亦隆台球城	上海沙龙商业楼三层	67829188	健身娱乐
青年假日酒店	贵园南路6号	67895716	酒店宾馆
北京圣坤酒店	天华南街3号院	67868866	酒店宾馆
亦庄天宝速8酒店	天宝北街1号	67897575	酒店宾馆
格林豪泰酒店	亦庄开发区邮局附近	67850998	酒店宾馆
锦江之星开发区店		BDA国际企业大道内	67856363	酒店宾馆
爱义行亦庄店	开发区境界底商53号	67826511	汽车服务
北京冀贵汽车贸易有限公司	开发区东环北路北1号	67880999	汽车服务
运通博雅汽车销售服务有限公司	开发区东环北路乙1号南厅	67888777	汽车服务
北京联拓诚信马自达销售服务店	开发区万源街15号	67880752	汽车服务
科之华设计印务	亦庄开发区天华北街7号14-1-302	67830064	图文制作
sw@~$
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。
回复