哪位能帮忙写一个抓取小说网站的内容的脚本

软件和网站开发以及相关技术探讨
回复
头像
百草谷居士
帖子: 4025
注册时间: 2006-02-10 16:36
系统: debian12/xubuntu2404

哪位能帮忙写一个抓取小说网站的内容的脚本

#1

帖子 百草谷居士 » 2015-03-03 14:19

可以抓取常见网络小说网站上连载的小说,并且可以保存成txt或者epub格式。
手工输入章节目录地址,然后自动分析,过滤掉广告之类的,保存为文本文件或者常见的电子书格式。

哪位编程达人帮个忙?
Mint 22 / Xubuntu 24.04

为何热衷于搞发行版的多,搞应用程序开发的少?Linux最多余的就是各种发行版,最缺的就是应用程序,特别是行业应用程序。
头像
TeliuTe
论坛版主
帖子: 7675
注册时间: 2007-11-25 13:29
系统: 16/18/20/w7
来自: 新疆博乐
联系:

Re: 哪位能帮忙写一个抓取小说网站的内容的脚本

#2

帖子 TeliuTe » 2015-03-03 14:45

我用的wget下载,有些可以有些不行,看的时候把javascript关闭

代码: 全选

wget -r -l 2 --accept=html  http://192.168.1.250/index.html
头像
plum
帖子: 351
注册时间: 2007-04-20 22:48
系统: Ubuntu / Win8.1
来自: zhengzhou
联系:

Re: 哪位能帮忙写一个抓取小说网站的内容的脚本

#3

帖子 plum » 2015-03-03 14:53

python写一个,用个bs4啊还是正则表达式都可以,不难
Blog:plumz.me
GPlus:+Plum Lis
Twitter:@plumlis
Weibo:@plumlis
rosynirvana
帖子: 893
注册时间: 2011-02-14 17:46

Re: 哪位能帮忙写一个抓取小说网站的内容的脚本

#4

帖子 rosynirvana » 2015-03-03 14:53

比如哪个网站?
头像
百草谷居士
帖子: 4025
注册时间: 2006-02-10 16:36
系统: debian12/xubuntu2404

Re: 哪位能帮忙写一个抓取小说网站的内容的脚本

#5

帖子 百草谷居士 » 2015-03-04 11:15

比如起点,潇湘书院

知易行难,说起来好像简单,拜托实际动手写一个。
Mint 22 / Xubuntu 24.04

为何热衷于搞发行版的多,搞应用程序开发的少?Linux最多余的就是各种发行版,最缺的就是应用程序,特别是行业应用程序。
头像
oneleaf
论坛管理员
帖子: 10455
注册时间: 2005-03-27 0:06
系统: Ubuntu 12.04

Re: 哪位能帮忙写一个抓取小说网站的内容的脚本

#6

帖子 oneleaf » 2015-03-04 12:06

抽空看下了起点的源码,不算麻烦。

打开章节页面地址,获得源码,正则匹配到 (http://files.qidian.com/Author1.*?)' 获得这个链接后再读取出来,然后格式化下,就是文本了。
头像
ubuntu777
帖子: 249
注册时间: 2007-03-28 18:40

Re: 哪位能帮忙写一个抓取小说网站的内容的脚本

#7

帖子 ubuntu777 » 2015-03-04 18:01

火狐浏览器有一个ScrapBook插件。可以下载网站内容到本地。还可以事先编辑掉不需要的内容。选择下载链接的深度。选择下载文件的后辍名doc pdf txt zip rar等等。
שְׁמַע יִשְׂרָאֵל יְהֹוָה אֱלֹהֵינוּ יְהֹוָה ׀ אֶחָֽד׃
וְאָהַבְתָּ אֵת יְהֹוָה אֱלֹהֶיךָ בְּכׇל־לְבָבְךָ וּבְכׇל־נַפְשְׁךָ וּבְכׇל־מְאֹדֶֽךָ׃
回复