把技术资料网站给镜像下来离线浏览
- binker
- 帖子: 706
- 注册时间: 2008-09-10 11:54
把技术资料网站给镜像下来离线浏览
现在我用的是中国电信的EVDO3G无线网络,有限制上网的连接时间(每月只能上200个小时,)流量不限,有时候会在网上看一些网页资料,不能整天挂在网上慢慢看的,所以用wget把经常浏览的网页都给快速镜像到本地的硬盘里,然后离线慢慢的浏览(一次连接下载,以后浏览镜像网页都不用连接到网上了),
比如我要在我的文档目录下一个叫做网页的文件夹里镜像苹果的官方网站
打开一个终端
输入ls
cd 文档
cd 网页
然后
wget -r -p -np -k -N -t 2 http://www.apple.com.cn/
然后回车
就开始下载啦
再如我我们要在 文档/网页/A/文件夹下镜像保存Ubuntu的中文培训课程网页(整个课程的网页都镜像下来)
我们只需要打开终端
输入
cd 文档/网页/A/
然后回车
进入A目录下
然后在输入
wget -r -p -np -k -N -t 3 http://people.ubuntu.com/~happyaron/udc-cn/
回车
就可以把Ubuntu的中文培训课程网页给完整的镜像保存下来了 [/size]
打开一个终端
输入ls
cd 文档
cd 网页
然后
wget -r -p -np -k -N -t 2 http://www.apple.com.cn/
然后回车
就开始下载啦
再如我我们要在 文档/网页/A/文件夹下镜像保存Ubuntu的中文培训课程网页(整个课程的网页都镜像下来)
我们只需要打开终端
输入
cd 文档/网页/A/
然后回车
进入A目录下
然后在输入
wget -r -p -np -k -N -t 3 http://people.ubuntu.com/~happyaron/udc-cn/
回车
就可以把Ubuntu的中文培训课程网页给完整的镜像保存下来了 [/size]
上次由 binker 在 2011-01-16 12:45,总共编辑 6 次。
- lotutu
- 帖子: 730
- 注册时间: 2010-12-23 16:29
- 来自: 北京
Re: 把技术资料网站给镜像下来离线浏览
怎么做到的? 介绍下
- binker
- 帖子: 706
- 注册时间: 2008-09-10 11:54
Re: 把技术资料网站给镜像下来离线浏览
用wgetlotutu 写了:怎么做到的? 介绍下
你可以在网上搜索wget的用法
- lotutu
- 帖子: 730
- 注册时间: 2010-12-23 16:29
- 来自: 北京
Re: 把技术资料网站给镜像下来离线浏览
嗯,刚刚看过. 这个确实不错.
- binker
- 帖子: 706
- 注册时间: 2008-09-10 11:54
Re: 把技术资料网站给镜像下来离线浏览
是阿,省了不少的连接时间和流量,不用重复浏览一个网站, 离线浏览真舒服,想什么时候看资料都可以,镜像以后网页的页面风格效果结构都保持不变,原汁原味lotutu 写了:嗯,刚刚看过. 这个确实不错.
上次由 binker 在 2011-01-16 12:31,总共编辑 1 次。
-
- 帖子: 155
- 注册时间: 2010-05-22 16:30
- 联系:
Re: 把技术资料网站给镜像下来离线浏览
想法不错,我把想论坛的帖子给下载下来,回家慢慢看....不知道会不会把服务器给弄瘫痪,我能够使用的网络是60M宽带,不知道全速下载会用多久的时间。
- binker
- 帖子: 706
- 注册时间: 2008-09-10 11:54
Re: 把技术资料网站给镜像下来离线浏览
当然不会瘫痪了。整个论坛的帖子加起来能有多少GB阿?不会很大的,下载一个高清的1080P电影要20多GBkfajian 写了:想法不错,我把想论坛的帖子给下载下来,回家慢慢看....不知道会不会把服务器给弄瘫痪,我能够使用的网络是60M宽带,不知道全速下载会用多久的时间。
- c43035
- 帖子: 724
- 注册时间: 2008-10-22 14:29
- 联系:
- binker
- 帖子: 706
- 注册时间: 2008-09-10 11:54
Re: 把技术资料网站给镜像下来离线浏览
可以改的c43035 写了:下载下来的论坛可以随便更改吗,,,比如把一些垃圾帖子给删除了,,只留有用的部分
你可以用网页设计工具软件修改
- lotutu
- 帖子: 730
- 注册时间: 2010-12-23 16:29
- 来自: 北京
Re: 把技术资料网站给镜像下来离线浏览
我现在比较好奇的是,怎么有选择地下载? wget内嵌规则有无我不知道,想来即使有也不会太复杂。
而要是用脚本如Perl进行筛选后再下载,那么不是得每有一个符合的就要启动一次外部命令wget ? 这样应该不是一个好主意,
这时是不是要用到 socket 之类的? 可惜我还不会。
而要是用脚本如Perl进行筛选后再下载,那么不是得每有一个符合的就要启动一次外部命令wget ? 这样应该不是一个好主意,
这时是不是要用到 socket 之类的? 可惜我还不会。
- binker
- 帖子: 706
- 注册时间: 2008-09-10 11:54
Re: 把技术资料网站给镜像下来离线浏览
用wget命令加参数组合可以下载你想要的内容,跳过你不想要的内容lotutu 写了: 我现在比较好奇的是,怎么有选择地下载? wget内嵌规则有无我不知道,想来即使有也不会太复杂。
而要是用脚本如Perl进行筛选后再下载,那么不是得每有一个符合的就要启动一次外部命令wget ? 这样应该不是一个好主意,
这时是不是要用到 socket 之类的? 可惜我还不会。
编辑好命令后保存在一个文本文件里面,然后复制粘贴到终端里面,回车,就是这么简单
正确设置好以后,你可以把你想要的整个技术资料网站给镜像下来 (我镜像了好几个小网站的资料,比如FreeBSD的中文版使用手册,Ubuntu中文培训指南,Debian用户手册,)
镜像下来,以后就可以在自己的电脑里面离线浏览这些网页资料了,不用再连接上网
- lotutu
- 帖子: 730
- 注册时间: 2010-12-23 16:29
- 来自: 北京
Re: 把技术资料网站给镜像下来离线浏览
wget能复杂地选择吗? 比如 “凡是标题中含有三个以上问号或者叹号的不予理睬”这样的
- momova
- 帖子: 3381
- 注册时间: 2007-07-11 21:43
- 系统: archlinux
- 来自: 东江边
Re: 把技术资料网站给镜像下来离线浏览
我这几天也想镜像一个网站。
用楼主的办法镜像不成功。
楼主帮看看是怎么回事
用楼主的办法镜像不成功。
代码: 全选
$ wget -r -p -np -k -N -t 2 http://www.mbalib.com/
--2011-01-15 22:22:19-- http://www.mbalib.com/
正在解析主机 www.mbalib.com... 110.80.7.42
正在连接 www.mbalib.com|110.80.7.42|:80... 已连接。
已发出 HTTP 请求,正在等待回应... 403 Forbidden
2011-01-15 22:22:20 错误 403:Forbidden。
已转换 0 个文件(在 0 秒之内)。
我来了,我看见了,我征服了!
求勾搭,不管饭。
求勾搭,不管饭。
- momova
- 帖子: 3381
- 注册时间: 2007-07-11 21:43
- 系统: archlinux
- 来自: 东江边
- binker
- 帖子: 706
- 注册时间: 2008-09-10 11:54
Re: 把技术资料网站给镜像下来离线浏览
你镜像的这个网站是一个搜索引擎网站,动态技术以及海量内容索引的的网站(和谷歌的网站同类型,后台都是分布式数据库),这些网站服务器规模都是很庞大的,如果镜像的话那些网络文件流量肯定很大的,我们的硬盘装不了那么多momova 写了:我这几天也想镜像一个网站。
用楼主的办法镜像不成功。楼主帮看看是怎么回事代码: 全选
$ wget -r -p -np -k -N -t 2 http://www.mbalib.com/ --2011-01-15 22:22:19-- http://www.mbalib.com/ 正在解析主机 www.mbalib.com... 110.80.7.42 正在连接 www.mbalib.com|110.80.7.42|:80... 已连接。 已发出 HTTP 请求,正在等待回应... 403 Forbidden 2011-01-15 22:22:20 错误 403:Forbidden。 已转换 0 个文件(在 0 秒之内)。
我一般就镜像一些比较小型的技术网站(整个网站内容加起来不超过10GB的),有的网站全部页面才500多MB,