[问题]怎样把html转换成txt文本

sh/bash/dash/ksh/zsh等Shell脚本
回复
头像
juise
帖子: 25
注册时间: 2006-08-31 9:42
来自: china TJ
送出感谢: 0
接收感谢: 0
联系:

[问题]怎样把html转换成txt文本

#1

帖子 juise » 2008-05-31 18:23

有很多个html,怎样把内容(主要是中文)提取出来存成文本文件,去掉网页的格式和代码?
希望有个shell脚本来实现。
谢谢! :D
dbzhang800
帖子: 3182
注册时间: 2006-03-10 15:10
来自: xi'an China
送出感谢: 0
接收感谢: 2 次
联系:

#2

帖子 dbzhang800 » 2008-05-31 19:41

html转换成txt文本 的现成的程序应该不少吧
aBiNg
帖子: 1331
注册时间: 2006-07-09 12:22
来自: 南京
送出感谢: 0
接收感谢: 2 次

#3

帖子 aBiNg » 2008-05-31 19:42

html2text
头像
millenniumdark
论坛版主
帖子: 4160
注册时间: 2005-07-02 14:41
系统: Ubuntu 14.04 (Kylin)
送出感谢: 43 次
接收感谢: 9 次
联系:

#4

帖子 millenniumdark » 2008-05-31 19:47

代码: 全选

sed -e 's/<[^>]*>//g'
头像
lumjstu
帖子: 8
注册时间: 2008-10-16 13:53
送出感谢: 0
接收感谢: 0
联系:

Re: [问题]怎样把html转换成txt文本

#5

帖子 lumjstu » 2008-11-05 20:09

w3m -dump
头像
xiooli
帖子: 6956
注册时间: 2007-11-19 21:51
来自: 成都
送出感谢: 0
接收感谢: 3 次
联系:

Re: [问题]怎样把html转换成txt文本

#6

帖子 xiooli » 2008-11-05 20:55

lumjstu 写了:w3m -dump
这个正 :em11
回复

回到 “Shell脚本”