当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 6 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : [问题]怎样把html转换成txt文本
帖子发表于 : 2008-05-31 18:23 
头像

注册: 2006-08-31 9:42
帖子: 25
地址: china TJ
送出感谢: 0 次
接收感谢: 0 次
有很多个html,怎样把内容(主要是中文)提取出来存成文本文件,去掉网页的格式和代码?
希望有个shell脚本来实现。
谢谢! :D


页首
 用户资料  
 
2 楼 
 文章标题 :
帖子发表于 : 2008-05-31 19:41 

注册: 2006-03-10 15:10
帖子: 3182
地址: xi'an China
送出感谢: 0 次
接收感谢: 2
html转换成txt文本 的现成的程序应该不少吧


页首
 用户资料  
 
3 楼 
 文章标题 :
帖子发表于 : 2008-05-31 19:42 

注册: 2006-07-09 12:22
帖子: 1331
地址: 南京
送出感谢: 0 次
接收感谢: 1
html2text


页首
 用户资料  
 
4 楼 
 文章标题 :
帖子发表于 : 2008-05-31 19:47 
头像

注册: 2005-07-02 14:41
帖子: 4133
系统: Ubuntu 14.04 (Kylin)
送出感谢: 53
接收感谢: 11
代码:
sed -e 's/<[^>]*>//g'


_________________
https://weakish.github.io


页首
 用户资料  
 
5 楼 
 文章标题 : Re: [问题]怎样把html转换成txt文本
帖子发表于 : 2008-11-05 20:09 
头像

注册: 2008-10-16 13:53
帖子: 8
送出感谢: 0 次
接收感谢: 0 次
w3m -dump


_________________
怎么跨网段玩星际.


页首
 用户资料  
 
6 楼 
 文章标题 : Re: [问题]怎样把html转换成txt文本
帖子发表于 : 2008-11-05 20:55 
头像

注册: 2007-11-19 21:51
帖子: 6956
地址: 成都
送出感谢: 0 次
接收感谢: 4
lumjstu 写道:
w3m -dump

这个正 :em11


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 6 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 2 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译