对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

Python/PHP/Perl 开发与设计
回复
konakona
帖子: 68
注册时间: 2009-07-07 22:51
来自: Guilin
送出感谢: 0
接收感谢: 0
联系:

对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

#1

帖子 konakona » 2012-11-15 18:02

由于时间紧迫,并没有系统的学习过python的正则,我自己写了几个,但都不对。

我弄了几年的PHP,PYTHON 和 PHP的正则差距太大了。

(我是觉得PYTHON做采集端会好很多,所以没用PHP啦)


对方的HTML非常乱……导致采集难度提升,当然也没采集淘宝那么麻烦,淘宝我到采集得到(用PHP),用PYTHON我就没辙了,^_^




我想采集<div class="item"></div> 里的所有html。
但它的item class偶尔还又其他class。



请大家帮忙看下。谢谢。
附件
curl.png
一个小小的LAMP,欢迎大家跟我交流技术!
我的网站 http://CrazyPHPer.com
头像
jarlyyn
论坛版主
帖子: 4671
注册时间: 2006-04-12 18:54
送出感谢: 0
接收感谢: 6 次
联系:

Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

#2

帖子 jarlyyn » 2012-11-15 22:50

用正则做这个?php和python都不好做吧?

要配对的东西,差不多应该用这些吧:

http://docs.python.org/2/library/htmlparser.html

很好奇你php怎么用正则解析这个的
头像
枫叶饭团
论坛版主
帖子: 14684
注册时间: 2010-06-16 1:05
系统: Mac OS X
来自: Tencent
送出感谢: 1 次
接收感谢: 132 次
联系:

Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

#3

帖子 枫叶饭团 » 2012-11-15 23:57

先用beatifull库对网页进行处理,再用正则抓~
konakona
帖子: 68
注册时间: 2009-07-07 22:51
来自: Guilin
送出感谢: 0
接收感谢: 0
联系:

Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

#4

帖子 konakona » 2012-11-16 9:16

jarlyyn 写了:用正则做这个?php和python都不好做吧?

要配对的东西,差不多应该用这些吧:

http://docs.python.org/2/library/htmlparser.html

很好奇你php怎么用正则解析这个的
PHP抓取的话就感觉轻松许多,虽然数据分析过程很烦躁,正则也不好写,但毕竟有经验在那。
昨天看了下PYTHON的正则, http://www.cnblogs.com/huxi/archive/201 ... 71073.html 感觉差距好大= =||
一个小小的LAMP,欢迎大家跟我交流技术!
我的网站 http://CrazyPHPer.com
头像
jarlyyn
论坛版主
帖子: 4671
注册时间: 2006-04-12 18:54
送出感谢: 0
接收感谢: 6 次
联系:

Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

#5

帖子 jarlyyn » 2012-11-16 9:43

konakona 写了:
jarlyyn 写了:用正则做这个?php和python都不好做吧?

要配对的东西,差不多应该用这些吧:

http://docs.python.org/2/library/htmlparser.html

很好奇你php怎么用正则解析这个的
PHP抓取的话就感觉轻松许多,虽然数据分析过程很烦躁,正则也不好写,但毕竟有经验在那。
昨天看了下PYTHON的正则, http://www.cnblogs.com/huxi/archive/201 ... 71073.html 感觉差距好大= =||
正则表达是通用的,由perl提出的吧?不存在正则有不同,最多是match/find不同。
你的需求应该是解析xhtml,类似与解析xml,走正则的话,由于有多层div嵌套,只有吃力不讨好。
konakona
帖子: 68
注册时间: 2009-07-07 22:51
来自: Guilin
送出感谢: 0
接收感谢: 0
联系:

Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

#6

帖子 konakona » 2012-11-27 11:16

jarlyyn 写了:
konakona 写了:
jarlyyn 写了:用正则做这个?php和python都不好做吧?

要配对的东西,差不多应该用这些吧:

http://docs.python.org/2/library/htmlparser.html

很好奇你php怎么用正则解析这个的
PHP抓取的话就感觉轻松许多,虽然数据分析过程很烦躁,正则也不好写,但毕竟有经验在那。
昨天看了下PYTHON的正则, http://www.cnblogs.com/huxi/archive/201 ... 71073.html 感觉差距好大= =||
正则表达是通用的,由perl提出的吧?不存在正则有不同,最多是match/find不同。
你的需求应该是解析xhtml,类似与解析xml,走正则的话,由于有多层div嵌套,只有吃力不讨好。

:em06 我已经采取了其他的解决办法。

http://www.crazyphper.com/?p=2401
一个小小的LAMP,欢迎大家跟我交流技术!
我的网站 http://CrazyPHPer.com
头像
枫叶饭团
论坛版主
帖子: 14684
注册时间: 2010-06-16 1:05
系统: Mac OS X
来自: Tencent
送出感谢: 1 次
接收感谢: 132 次
联系:

Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

#7

帖子 枫叶饭团 » 2012-11-27 12:40

呵呵,为什么每次我说的正确方法总是被无视掉呢
konakona
帖子: 68
注册时间: 2009-07-07 22:51
来自: Guilin
送出感谢: 0
接收感谢: 0
联系:

Re: 对PYTHON的正则并不熟悉,特此请各位大大帮个忙,看看

#8

帖子 konakona » 2012-12-09 17:58

枫叶饭团 写了:呵呵,为什么每次我说的正确方法总是被无视掉呢
我用的就是你的方法啊,别伤心哈! :em05
一个小小的LAMP,欢迎大家跟我交流技术!
我的网站 http://CrazyPHPer.com
回复

回到 “Python/Php/Perl”