当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 8 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看
帖子发表于 : 2012-11-15 18:02 

注册: 2009-07-07 22:51
帖子: 68
地址: Guilin
送出感谢: 0 次
接收感谢: 0 次
由于时间紧迫,并没有系统的学习过python的正则,我自己写了几个,但都不对。

我弄了几年的PHP,PYTHON 和 PHP的正则差距太大了。

(我是觉得PYTHON做采集端会好很多,所以没用PHP啦)


对方的HTML非常乱……导致采集难度提升,当然也没采集淘宝那么麻烦,淘宝我到采集得到(用PHP),用PYTHON我就没辙了,^_^




我想采集<div class="item"></div> 里的所有html。
但它的item class偶尔还又其他class。



请大家帮忙看下。谢谢。


附件:
curl.png
curl.png [ 328.79 KiB | 被浏览 2247 次 ]



_________________
一个小小的LAMP,欢迎大家跟我交流技术!
我的网站 http://CrazyPHPer.com
页首
 用户资料  
 
2 楼 
 文章标题 : Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看
帖子发表于 : 2012-11-15 22:50 
头像

注册: 2006-04-12 18:54
帖子: 4671
送出感谢: 0 次
接收感谢: 7
用正则做这个?php和python都不好做吧?

要配对的东西,差不多应该用这些吧:

http://docs.python.org/2/library/htmlparser.html

很好奇你php怎么用正则解析这个的


_________________
荃创想


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看
帖子发表于 : 2012-11-15 23:57 
头像

注册: 2010-06-16 1:05
帖子: 14683
地址: Tencent
系统: Mac OS X
送出感谢: 1
接收感谢: 153
先用beatifull库对网页进行处理,再用正则抓~


_________________
twitter求fo:http://twitter.com/maplebeats
博客求踩:http://maplebeats.com


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看
帖子发表于 : 2012-11-16 9:16 

注册: 2009-07-07 22:51
帖子: 68
地址: Guilin
送出感谢: 0 次
接收感谢: 0 次
jarlyyn 写道:
用正则做这个?php和python都不好做吧?

要配对的东西,差不多应该用这些吧:

http://docs.python.org/2/library/htmlparser.html

很好奇你php怎么用正则解析这个的


PHP抓取的话就感觉轻松许多,虽然数据分析过程很烦躁,正则也不好写,但毕竟有经验在那。
昨天看了下PYTHON的正则, http://www.cnblogs.com/huxi/archive/201 ... 71073.html 感觉差距好大= =||


_________________
一个小小的LAMP,欢迎大家跟我交流技术!
我的网站 http://CrazyPHPer.com


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看
帖子发表于 : 2012-11-16 9:43 
头像

注册: 2006-04-12 18:54
帖子: 4671
送出感谢: 0 次
接收感谢: 7
konakona 写道:
jarlyyn 写道:
用正则做这个?php和python都不好做吧?

要配对的东西,差不多应该用这些吧:

http://docs.python.org/2/library/htmlparser.html

很好奇你php怎么用正则解析这个的


PHP抓取的话就感觉轻松许多,虽然数据分析过程很烦躁,正则也不好写,但毕竟有经验在那。
昨天看了下PYTHON的正则, http://www.cnblogs.com/huxi/archive/201 ... 71073.html 感觉差距好大= =||


正则表达是通用的,由perl提出的吧?不存在正则有不同,最多是match/find不同。
你的需求应该是解析xhtml,类似与解析xml,走正则的话,由于有多层div嵌套,只有吃力不讨好。


_________________
荃创想


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看
帖子发表于 : 2012-11-27 11:16 

注册: 2009-07-07 22:51
帖子: 68
地址: Guilin
送出感谢: 0 次
接收感谢: 0 次
jarlyyn 写道:
konakona 写道:
jarlyyn 写道:
用正则做这个?php和python都不好做吧?

要配对的东西,差不多应该用这些吧:

http://docs.python.org/2/library/htmlparser.html

很好奇你php怎么用正则解析这个的


PHP抓取的话就感觉轻松许多,虽然数据分析过程很烦躁,正则也不好写,但毕竟有经验在那。
昨天看了下PYTHON的正则, http://www.cnblogs.com/huxi/archive/201 ... 71073.html 感觉差距好大= =||


正则表达是通用的,由perl提出的吧?不存在正则有不同,最多是match/find不同。
你的需求应该是解析xhtml,类似与解析xml,走正则的话,由于有多层div嵌套,只有吃力不讨好。



:em06 我已经采取了其他的解决办法。

http://www.crazyphper.com/?p=2401


_________________
一个小小的LAMP,欢迎大家跟我交流技术!
我的网站 http://CrazyPHPer.com


页首
 用户资料  
 
7 楼 
 文章标题 : Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看
帖子发表于 : 2012-11-27 12:40 
头像

注册: 2010-06-16 1:05
帖子: 14683
地址: Tencent
系统: Mac OS X
送出感谢: 1
接收感谢: 153
呵呵,为什么每次我说的正确方法总是被无视掉呢


_________________
twitter求fo:http://twitter.com/maplebeats
博客求踩:http://maplebeats.com


页首
 用户资料  
 
8 楼 
 文章标题 : Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看
帖子发表于 : 2012-12-09 17:58 

注册: 2009-07-07 22:51
帖子: 68
地址: Guilin
送出感谢: 0 次
接收感谢: 0 次
枫叶饭团 写道:
呵呵,为什么每次我说的正确方法总是被无视掉呢


我用的就是你的方法啊,别伤心哈! :em05


_________________
一个小小的LAMP,欢迎大家跟我交流技术!
我的网站 http://CrazyPHPer.com


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 8 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译