可以抓取常见网络小说网站上连载的小说,并且可以保存成txt或者epub格式。
手工输入章节目录地址,然后自动分析,过滤掉广告之类的,保存为文本文件或者常见的电子书格式。
哪位编程达人帮个忙?
哪位能帮忙写一个抓取小说网站的内容的脚本
- 百草谷居士
- 帖子: 4025
- 注册时间: 2006-02-10 16:36
- 系统: debian12/xubuntu2404
哪位能帮忙写一个抓取小说网站的内容的脚本
Mint 22 / Xubuntu 24.04
为何热衷于搞发行版的多,搞应用程序开发的少?Linux最多余的就是各种发行版,最缺的就是应用程序,特别是行业应用程序。
为何热衷于搞发行版的多,搞应用程序开发的少?Linux最多余的就是各种发行版,最缺的就是应用程序,特别是行业应用程序。
- TeliuTe
- 论坛版主
- 帖子: 7675
- 注册时间: 2007-11-25 13:29
- 系统: 16/18/20/w7
- 来自: 新疆博乐
- 联系:
Re: 哪位能帮忙写一个抓取小说网站的内容的脚本
我用的wget下载,有些可以有些不行,看的时候把javascript关闭
代码: 全选
wget -r -l 2 --accept=html http://192.168.1.250/index.html
- plum
- 帖子: 351
- 注册时间: 2007-04-20 22:48
- 系统: Ubuntu / Win8.1
- 来自: zhengzhou
- 联系:
Re: 哪位能帮忙写一个抓取小说网站的内容的脚本
python写一个,用个bs4啊还是正则表达式都可以,不难
-
- 帖子: 893
- 注册时间: 2011-02-14 17:46
Re: 哪位能帮忙写一个抓取小说网站的内容的脚本
比如哪个网站?
- 百草谷居士
- 帖子: 4025
- 注册时间: 2006-02-10 16:36
- 系统: debian12/xubuntu2404
Re: 哪位能帮忙写一个抓取小说网站的内容的脚本
比如起点,潇湘书院
知易行难,说起来好像简单,拜托实际动手写一个。
知易行难,说起来好像简单,拜托实际动手写一个。
Mint 22 / Xubuntu 24.04
为何热衷于搞发行版的多,搞应用程序开发的少?Linux最多余的就是各种发行版,最缺的就是应用程序,特别是行业应用程序。
为何热衷于搞发行版的多,搞应用程序开发的少?Linux最多余的就是各种发行版,最缺的就是应用程序,特别是行业应用程序。
- oneleaf
- 论坛管理员
- 帖子: 10455
- 注册时间: 2005-03-27 0:06
- 系统: Ubuntu 12.04
Re: 哪位能帮忙写一个抓取小说网站的内容的脚本
抽空看下了起点的源码,不算麻烦。
打开章节页面地址,获得源码,正则匹配到 (http://files.qidian.com/Author1.*?)' 获得这个链接后再读取出来,然后格式化下,就是文本了。
打开章节页面地址,获得源码,正则匹配到 (http://files.qidian.com/Author1.*?)' 获得这个链接后再读取出来,然后格式化下,就是文本了。
- ubuntu777
- 帖子: 249
- 注册时间: 2007-03-28 18:40
Re: 哪位能帮忙写一个抓取小说网站的内容的脚本
火狐浏览器有一个ScrapBook插件。可以下载网站内容到本地。还可以事先编辑掉不需要的内容。选择下载链接的深度。选择下载文件的后辍名doc pdf txt zip rar等等。
שְׁמַע יִשְׂרָאֵל יְהֹוָה אֱלֹהֵינוּ יְהֹוָה ׀ אֶחָֽד׃
וְאָהַבְתָּ אֵת יְהֹוָה אֱלֹהֶיךָ בְּכׇל־לְבָבְךָ וּבְכׇל־נַפְשְׁךָ וּבְכׇל־מְאֹדֶֽךָ׃
וְאָהַבְתָּ אֵת יְהֹוָה אֱלֹהֶיךָ בְּכׇל־לְבָבְךָ וּבְכׇל־נַפְשְׁךָ וּבְכׇל־מְאֹדֶֽךָ׃