#!/bin/bash
#与朋友们共享!如果大家有好的修改意见,欢迎给我留言。ubuntu.org.cn centerpoint 感谢irc#ubuntu-cn iGoogle等大牛的帮助。欢迎留言指正。
#功能:本程序可以把html,htm网页文件转换成txt文本。
#用法:maxdepth 跟的数是目录深度,1为本目录。把本文件保存为h2t.sh,把权限设为“可执行”,然后复制到要转换的html文件目录。在命令行下cd到那个目录。
#执行 ./h2t.sh 即可。
#作者:centerpoint 2010.1.6
#扫描的文件类型。默认htm,html
>files.mybak
find ./ -maxdepth 1 -name '*.htm'>>files.mybak
find ./ -maxdepth 1 -name '*.html'>>files.mybak
myi=0
while read line
do
filename="${line##*/}";
myi=`echo "$myi+1"|bc`
echo "************************$myi***************************"
ls -sh "${filename}"
w3m -dump "${filename}">"${filename}.txt"
ls -sh "${filename}.txt"
done < files.mybak
rm files.mybak
ubuntu linux下批量转换html文件到txt的脚本习作
- centerpoint
- 帖子: 95
- 注册时间: 2009-11-30 19:38
- fanhe
- 帖子: 2357
- 注册时间: 2007-03-24 23:45
Re: ubuntu linux下批量转换html文件到txt的脚本习作
支持,是用w3m的转文本功能吧
- eexpress
- 帖子: 58428
- 注册时间: 2005-08-14 21:55
- 来自: 长沙
-
- 帖子: 1028
- 注册时间: 2008-11-01 21:42
- 来自: 树下板凳
-
- 帖子: 73
- 注册时间: 2007-05-07 9:42
Re: ubuntu linux下批量转换html文件到txt的脚本习作
html2texteexpress 写了:练习下够了。现成的都有。