求Linux下网页采集的思路或工具

软件和网站开发以及相关技术探讨
回复
bluescharp
帖子: 7
注册时间: 2010-02-14 18:53

求Linux下网页采集的思路或工具

#1

帖子 bluescharp » 2013-07-01 22:00

初始给定一批URL,存放在txt中。
需求:批量下载txt中的网页源码,分别保存在txt文件中。
头像
luojie-dune
帖子: 22033
注册时间: 2007-07-30 18:28
系统: Linux
来自: 空气中

Re: 求Linux下网页采集的思路或工具

#2

帖子 luojie-dune » 2013-07-01 22:55

。。。
直接下载然后改名txt?
『这个世界都是我的 ,我爱你们』

ENTP ⥂ INTP ⥄ INFP ⇦ INTJ

在此发布的文章使用 Creative Commons Attribution-ShareAlike 4.0 协议
bluescharp
帖子: 7
注册时间: 2010-02-14 18:53

Re: 求Linux下网页采集的思路或工具

#3

帖子 bluescharp » 2013-07-11 9:43

额,那有批量下载网页的工具么~~主要是希望能多线程~
头像
cjxgm
帖子: 1952
注册时间: 2010-04-23 20:40
系统: Arch Linux
来自: 浙江·杭州
联系:

Re: 求Linux下网页采集的思路或工具

#4

帖子 cjxgm » 2013-07-11 9:49

bluescharp 写了:额,那有批量下载网页的工具么~~主要是希望能多线程~
自己写啊,也就几行的 shell 代码
Clanjor Prods. | Develop for Developers. (C++, Lua) | 作曲编曲 | 实时渲染引擎
buntutu
帖子: 65
注册时间: 2009-11-25 1:38

Re: 求Linux下网页采集的思路或工具

#5

帖子 buntutu » 2013-07-11 11:46

bluescharp 写了:额,那有批量下载网页的工具么~~主要是希望能多线程~
一些下载工具都有,譬如 wget 的 -r 选项,叫做递归下载, recursive retrievial 。 但是现在网页很多是 javascript 的内容,链接不是直接 html 的链接,而是用javascript 动态标识,倒是有些困难。
buntutu
帖子: 65
注册时间: 2009-11-25 1:38

Re: 求Linux下网页采集的思路或工具

#6

帖子 buntutu » 2013-07-11 11:50

oops, 看错了,原来是下载文本里的 url 列表。这个更是常见。这是 --input 选项。
wget -i urls.txt
aria2c -i urls.txt
回复