就写了个脚本,功能是把一个文件夹下的所有html文件简单处理了一下,然后转换成txt的,并把这些txt输出到指定的文件夹下
使用方法:
代码: 全选
sudo chmod +x html2txt.py
./html2txt.py /inputdir /outputdir
代码: 全选
#!/usr/bin/env python
#-*- coding: utf-8 -*-
import HTMLParser
import urllib
import os.path, os
import sys
class parseText(HTMLParser.HTMLParser):
def handle_data(self, data):
if data != '\n' and data.isspace():
pass
else:
self.text.append(data)
def main(htmlpath, outpath):
lParser = parseText()
namelist = os.listdir(htmlpath)
if os.path.exists(outpath):
print '输出目录已存在,请重新输入!'
sys.exit()
else:
os.mkdir(outpath)
for name in namelist:
lParser.text = []
lParser.feed(urllib.urlopen(os.path.join(htmlpath, name)).read())
lParser.close()
f = open(os.path.join(outpath, os.path.splitext(name)[0] + '.txt'), 'w')
f.writelines(lParser.text)
f.close()
if __name__ == '__main__':
main(sys.argv[1], sys.argv[2])