[问题]python 提取网页内容

软件和网站开发以及相关技术探讨
回复
djhui
帖子: 85
注册时间: 2007-03-10 12:34
联系:

[问题]python 提取网页内容

#1

帖子 djhui » 2008-09-10 9:30

<body topmargin="0" leftmargin="0"><center>
<table border='0' width='466' cellspacing='1' bgcolor='#cccccc'><tbody>
<tr>
<td align=center width='18%' bgcolor='#eeeeee'>你的IP</td>

<td bgcolor='#FFFFFF' width='30%'>&nbsp;<a target="_blank" href="http://www.cz88.net/ip" title="纯真IP数据库(CZ88.NET)"><span id="IPMessage">122.224.112.205</span></a></td>
<td bgcolor='#FFFFFF' width='52%'>&nbsp;<a target="_blank" href="http://www.cz88.net/ip" title="纯真IP数据库(CZ88.NET)"><span id="AddrMessage">浙江省杭州市 </span></a></td>
</tr>
<tr>
<td align=center width='18%' bgcolor='#eeeeee'>操作系统</td>
<td colspan='2' bgcolor='#ffffff'>&nbsp;<a target="_blank" href="http://www.cz88.net/ip" title="纯真IP数据库(CZ88.NET)"><span id="OperatorMessage">Linux , Firefox 3.0.1</span></a></td>
</tr>

</tbody></table>
</center></body></html>

如何提取里面的汉字啊??编码是GB2312
baic
帖子: 166
注册时间: 2006-08-22 23:10

#2

帖子 baic » 2008-09-10 9:53

re.sub(r'<[^<>]*>','',t)
回复