初始给定一批URL,存放在txt中。
需求:批量下载txt中的网页源码,分别保存在txt文件中。
求Linux下网页采集的思路或工具
-
- 帖子: 7
- 注册时间: 2010-02-14 18:53
- luojie-dune
- 帖子: 22033
- 注册时间: 2007-07-30 18:28
- 系统: Linux
- 来自: 空气中
Re: 求Linux下网页采集的思路或工具
。。。
直接下载然后改名txt?
直接下载然后改名txt?
-
- 帖子: 7
- 注册时间: 2010-02-14 18:53
Re: 求Linux下网页采集的思路或工具
额,那有批量下载网页的工具么~~主要是希望能多线程~
- cjxgm
- 帖子: 1952
- 注册时间: 2010-04-23 20:40
- 系统: Arch Linux
- 来自: 浙江·杭州
- 联系:
Re: 求Linux下网页采集的思路或工具
自己写啊,也就几行的 shell 代码bluescharp 写了:额,那有批量下载网页的工具么~~主要是希望能多线程~
-
- 帖子: 65
- 注册时间: 2009-11-25 1:38
Re: 求Linux下网页采集的思路或工具
一些下载工具都有,譬如 wget 的 -r 选项,叫做递归下载, recursive retrievial 。 但是现在网页很多是 javascript 的内容,链接不是直接 html 的链接,而是用javascript 动态标识,倒是有些困难。bluescharp 写了:额,那有批量下载网页的工具么~~主要是希望能多线程~
-
- 帖子: 65
- 注册时间: 2009-11-25 1:38
Re: 求Linux下网页采集的思路或工具
oops, 看错了,原来是下载文本里的 url 列表。这个更是常见。这是 --input 选项。
wget -i urls.txt
aria2c -i urls.txt
wget -i urls.txt
aria2c -i urls.txt