当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 2 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 如何在java中将html文件转换为txt文件
帖子发表于 : 2007-07-05 20:19 

注册: 2007-03-19 19:15
帖子: 98
送出感谢: 0 次
接收感谢: 0 次
我比较爱将小说转换为同txt文件在mp4上阅读,但是在ubuntu下没找到此类软件,就想自己用java编一个,我是个java初学者,学时、经验都太少,绞尽脑汁也理不出个头绪,希望大家帮帮忙,给一些提示,或者源码(最好是源码),实在不行就推荐个这方面的程序吧,最好是能够批量转换的,谢谢了




-----------------------------------还是htmlparser好用,建议使用它,其实用java自带的类也可以解决,不过我试了一下,速度与htmlparser没得比。


最后由 starster888 编辑于 2008-10-01 23:55,总共编辑了 1 次

页首
 用户资料  
 
2 楼 
 文章标题 :
帖子发表于 : 2007-07-05 21:40 
头像

注册: 2007-06-12 17:22
帖子: 54
送出感谢: 0 次
接收感谢: 0 次
一种解决方法的大概思路:
使用htmlparser parse html文档,生成dom树,顺序找到dom树上的所有text节点,将这个节点内容拼到一个StringBuffer里面,然后StringBuffer.toString一下就可以了,不会太难的。会用perl或python的话实现起来也很快。
写txt的时候注意一下编码方式的输出,就可以了。


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 2 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 4 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译