哪位能帮忙写一个抓取小说网站的内容的脚本

百草谷居士 · #1

可以抓取常见网络小说网站上连载的小说，并且可以保存成txt或者epub格式。
手工输入章节目录地址，然后自动分析，过滤掉广告之类的，保存为文本文件或者常见的电子书格式。

哪位编程达人帮个忙？

TeliuTe · #2

我用的wget下载，有些可以有些不行，看的时候把javascript关闭

代码：全选

wget -r -l 2 --accept=html  http://192.168.1.250/index.html

plum · #3

python写一个，用个bs4啊还是正则表达式都可以，不难

rosynirvana · #4

比如哪个网站？

百草谷居士 · #5

比如起点，潇湘书院

知易行难，说起来好像简单，拜托实际动手写一个。

oneleaf · #6

抽空看下了起点的源码，不算麻烦。

打开章节页面地址，获得源码，正则匹配到 (http://files.qidian.com/Author1.*?)' 获得这个链接后再读取出来，然后格式化下，就是文本了。

ubuntu777 · #7

火狐浏览器有一个ScrapBook插件。可以下载网站内容到本地。还可以事先编辑掉不需要的内容。选择下载链接的深度。选择下载文件的后辍名doc pdf txt zip rar等等。