批量html转换txt，python实现

zkwlx · #1

最近要在手机上看一个CHM的文档，用7z解压出来那么多个，头都大了
就写了个脚本，功能是把一个文件夹下的所有html文件简单处理了一下，然后转换成txt的，并把这些txt输出到指定的文件夹下

使用方法：

代码：全选

sudo chmod +x html2txt.py
./html2txt.py /inputdir /outputdir

源代码：

代码：全选

#!/usr/bin/env python
#-*- coding: utf-8 -*-

import HTMLParser
import urllib
import os.path, os
import sys


class parseText(HTMLParser.HTMLParser):
    def handle_data(self, data):
        if data != '\n' and data.isspace():
            pass
        else:
            self.text.append(data)

def main(htmlpath, outpath):
    lParser = parseText()
    namelist = os.listdir(htmlpath)
    if os.path.exists(outpath):
        print '输出目录已存在，请重新输入！'
        sys.exit()
    else:
        os.mkdir(outpath)

    for name in namelist:
        lParser.text = []
        lParser.feed(urllib.urlopen(os.path.join(htmlpath, name)).read())
        lParser.close()
        f = open(os.path.join(outpath, os.path.splitext(name)[0] + '.txt'), 'w')
        f.writelines(lParser.text)
        f.close()

if __name__ == '__main__':
    main(sys.argv[1], sys.argv[2])

退避九舍 · #2

沙发

thomasxie · #3

trigger · #4

$ ./html2txt.py ~/文档/default ~/文档/txt
Traceback (most recent call last):
File "./html2txt.py", line 35, in <module>
main(sys.argv[1], sys.argv[2])
File "./html2txt.py", line 29, in main
lParser.close()
File "/usr/lib/python2.6/HTMLParser.py", line 112, in close
self.goahead(1)
File "/usr/lib/python2.6/HTMLParser.py", line 164, in goahead
self.error("EOF in middle of construct")
File "/usr/lib/python2.6/HTMLParser.py", line 115, in error
raise HTMLParseError(message, self.getpos())
HTMLParser.HTMLParseError: EOF in middle of construct, at line 411, column 11

trigger · #5

sed -e :a -e 's/<[^>]*>//g;/</N;//ba' file.html

zkwlx · #6

trigger 写了：sed -e :a -e 's/<[^>]*>//g;/</N;//ba' file.html

学习了！

不过上面那个问题是怎么回事？

trigger · #7

zkwlx 写了：
trigger 写了：sed -e :a -e 's/<[^>]*>//g;/</N;//ba' file.html
学习了！不过上面那个问题是怎么回事？

不知道，不会python。有两个文件处理成功。估计第三个里面有什么特殊字符。。。

cjxgm · #8

这种东西使用re就可以了，还大动干戈搞个HTMLParser……
要是我，写一个词法分析器、运用编译原理解析HTML……

eexpress · #9

☛ as html2
html2ps html2text html2wml

用模块去折腾。。。真还不如练习下 perlre

zkwlx · #10

cjxgm 写了：这种东西使用re就可以了，还大动干戈搞个HTMLParser……
要是我，写一个词法分析器、运用编译原理解析HTML……

能详细说明下吗，想学习学习

批量html转换txt，python实现

批量html转换txt，python实现

Re: 批量html转换txt，python实现

Re: 批量html转换txt，python实现

Re: 批量html转换txt，python实现

Re: 批量html转换txt，python实现

Re: 批量html转换txt，python实现

Re: 批量html转换txt，python实现

Re: 批量html转换txt，python实现

Re: 批量html转换txt，python实现

Re: 批量html转换txt，python实现