ubuntu linux下批量转换html文件到txt的脚本习作

sh/bash/dash/ksh/zsh等Shell脚本
回复
头像
centerpoint
帖子: 95
注册时间: 2009-11-30 19:38

ubuntu linux下批量转换html文件到txt的脚本习作

#1

帖子 centerpoint » 2010-01-06 13:42

#!/bin/bash
#与朋友们共享!如果大家有好的修改意见,欢迎给我留言。ubuntu.org.cn centerpoint 感谢irc#ubuntu-cn iGoogle等大牛的帮助。欢迎留言指正。
#功能:本程序可以把html,htm网页文件转换成txt文本。
#用法:maxdepth 跟的数是目录深度,1为本目录。把本文件保存为h2t.sh,把权限设为“可执行”,然后复制到要转换的html文件目录。在命令行下cd到那个目录。
#执行 ./h2t.sh 即可。
#作者:centerpoint 2010.1.6

#扫描的文件类型。默认htm,html
>files.mybak
find ./ -maxdepth 1 -name '*.htm'>>files.mybak
find ./ -maxdepth 1 -name '*.html'>>files.mybak
myi=0
while read line
do
filename="${line##*/}";
myi=`echo "$myi+1"|bc`
echo "************************$myi***************************"
ls -sh "${filename}"
w3m -dump "${filename}">"${filename}.txt"
ls -sh "${filename}.txt"
done < files.mybak
rm files.mybak
头像
fanhe
帖子: 2357
注册时间: 2007-03-24 23:45

Re: ubuntu linux下批量转换html文件到txt的脚本习作

#2

帖子 fanhe » 2010-01-15 13:41

支持,是用w3m的转文本功能吧
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙

Re: ubuntu linux下批量转换html文件到txt的脚本习作

#3

帖子 eexpress » 2010-01-15 14:01

练习下够了。现成的都有。
● 鸣学
t3swing
帖子: 1028
注册时间: 2008-11-01 21:42
来自: 树下板凳

Re: ubuntu linux下批量转换html文件到txt的脚本习作

#4

帖子 t3swing » 2010-01-15 16:42

用c做练习比较好
民族的脊梁,是踏实做事的人,非只知道骂街的泼妇。
wangtwo
帖子: 73
注册时间: 2007-05-07 9:42

Re: ubuntu linux下批量转换html文件到txt的脚本习作

#5

帖子 wangtwo » 2010-08-09 21:49

eexpress 写了:练习下够了。现成的都有。
html2text
回复