把技术资料网站给镜像下来离线浏览

包含网卡/无线网的网络问题和ADSL/校园网/宽带拨号支持及代理/共享等网络使用问题
头像
binker
帖子: 706
注册时间: 2008-09-10 11:54

把技术资料网站给镜像下来离线浏览

#1

帖子 binker » 2011-01-14 19:54

现在我用的是中国电信的EVDO3G无线网络,有限制上网的连接时间(每月只能上200个小时,)流量不限,有时候会在网上看一些网页资料,不能整天挂在网上慢慢看的,所以用wget把经常浏览的网页都给快速镜像到本地的硬盘里,然后离线慢慢的浏览(一次连接下载,以后浏览镜像网页都不用连接到网上了), :em04
离线浏览网页.png
比如我要在我的文档目录下一个叫做网页的文件夹里镜像苹果的官方网站
打开一个终端
输入ls
cd 文档
cd 网页
然后
wget -r -p -np -k -N -t 2 http://www.apple.com.cn/
然后回车
就开始下载啦
再如我我们要在 文档/网页/A/文件夹下镜像保存Ubuntu的中文培训课程网页(整个课程的网页都镜像下来)
我们只需要打开终端
输入
cd 文档/网页/A/
然后回车
进入A目录下
然后在输入
wget -r -p -np -k -N -t 3 http://people.ubuntu.com/~happyaron/udc-cn/
回车
就可以把Ubuntu的中文培训课程网页给完整的镜像保存下来了 :em04
Ubuntu桌面培训中文版.png
离线浏览效果图1.png
离线浏览效果图2.png
离线浏览效果图3.png
离线浏览效果图4.png
[/size]
附件
注意看网址是本地页面.png
上次由 binker 在 2011-01-16 12:45,总共编辑 6 次。
头像
lotutu
帖子: 730
注册时间: 2010-12-23 16:29
来自: 北京

Re: 把技术资料网站给镜像下来离线浏览

#2

帖子 lotutu » 2011-01-14 19:58

怎么做到的? 介绍下
头像
binker
帖子: 706
注册时间: 2008-09-10 11:54

Re: 把技术资料网站给镜像下来离线浏览

#3

帖子 binker » 2011-01-14 20:01

lotutu 写了:怎么做到的? 介绍下
用wget
你可以在网上搜索wget的用法
头像
lotutu
帖子: 730
注册时间: 2010-12-23 16:29
来自: 北京

Re: 把技术资料网站给镜像下来离线浏览

#4

帖子 lotutu » 2011-01-14 20:32

嗯,刚刚看过. 这个确实不错.
头像
binker
帖子: 706
注册时间: 2008-09-10 11:54

Re: 把技术资料网站给镜像下来离线浏览

#5

帖子 binker » 2011-01-14 20:40

lotutu 写了:嗯,刚刚看过. 这个确实不错.
是阿,省了不少的连接时间和流量,不用重复浏览一个网站, :em04 离线浏览真舒服,想什么时候看资料都可以,镜像以后网页的页面风格效果结构都保持不变,原汁原味
上次由 binker 在 2011-01-16 12:31,总共编辑 1 次。
kfajian
帖子: 155
注册时间: 2010-05-22 16:30
联系:

Re: 把技术资料网站给镜像下来离线浏览

#6

帖子 kfajian » 2011-01-14 20:56

想法不错,我把想论坛的帖子给下载下来,回家慢慢看....不知道会不会把服务器给弄瘫痪,我能够使用的网络是60M宽带,不知道全速下载会用多久的时间。 :em06
头像
binker
帖子: 706
注册时间: 2008-09-10 11:54

Re: 把技术资料网站给镜像下来离线浏览

#7

帖子 binker » 2011-01-14 21:00

kfajian 写了:想法不错,我把想论坛的帖子给下载下来,回家慢慢看....不知道会不会把服务器给弄瘫痪,我能够使用的网络是60M宽带,不知道全速下载会用多久的时间。 :em06
当然不会瘫痪了。整个论坛的帖子加起来能有多少GB阿?不会很大的,下载一个高清的1080P电影要20多GB
头像
c43035
帖子: 724
注册时间: 2008-10-22 14:29
联系:

Re: 把技术资料网站给镜像下来离线浏览

#8

帖子 c43035 » 2011-01-14 22:20

下载下来的论坛可以随便更改吗,,,比如把一些垃圾帖子给删除了,,只留有用的部分

代码: 全选

www.bashell.org
亲,走过路过,不要错过
头像
binker
帖子: 706
注册时间: 2008-09-10 11:54

Re: 把技术资料网站给镜像下来离线浏览

#9

帖子 binker » 2011-01-14 22:40

c43035 写了:下载下来的论坛可以随便更改吗,,,比如把一些垃圾帖子给删除了,,只留有用的部分
可以改的
你可以用网页设计工具软件修改
头像
lotutu
帖子: 730
注册时间: 2010-12-23 16:29
来自: 北京

Re: 把技术资料网站给镜像下来离线浏览

#10

帖子 lotutu » 2011-01-15 13:05

我现在比较好奇的是,怎么有选择地下载? wget内嵌规则有无我不知道,想来即使有也不会太复杂。
而要是用脚本如Perl进行筛选后再下载,那么不是得每有一个符合的就要启动一次外部命令wget ? 这样应该不是一个好主意,
这时是不是要用到 socket 之类的? 可惜我还不会。
头像
binker
帖子: 706
注册时间: 2008-09-10 11:54

Re: 把技术资料网站给镜像下来离线浏览

#11

帖子 binker » 2011-01-15 13:47

lotutu 写了: 我现在比较好奇的是,怎么有选择地下载? wget内嵌规则有无我不知道,想来即使有也不会太复杂。
而要是用脚本如Perl进行筛选后再下载,那么不是得每有一个符合的就要启动一次外部命令wget ? 这样应该不是一个好主意,
这时是不是要用到 socket 之类的? 可惜我还不会。
用wget命令加参数组合可以下载你想要的内容,跳过你不想要的内容
编辑好命令后保存在一个文本文件里面,然后复制粘贴到终端里面,回车,就是这么简单
正确设置好以后,你可以把你想要的整个技术资料网站给镜像下来 :em11 (我镜像了好几个小网站的资料,比如FreeBSD的中文版使用手册,Ubuntu中文培训指南,Debian用户手册,)
镜像下来,以后就可以在自己的电脑里面离线浏览这些网页资料了,不用再连接上网
头像
lotutu
帖子: 730
注册时间: 2010-12-23 16:29
来自: 北京

Re: 把技术资料网站给镜像下来离线浏览

#12

帖子 lotutu » 2011-01-15 13:56

wget能复杂地选择吗? 比如 “凡是标题中含有三个以上问号或者叹号的不予理睬”这样的
头像
momova
帖子: 3381
注册时间: 2007-07-11 21:43
系统: archlinux
来自: 东江边

Re: 把技术资料网站给镜像下来离线浏览

#13

帖子 momova » 2011-01-15 22:24

我这几天也想镜像一个网站。
用楼主的办法镜像不成功。

代码: 全选

$ wget -r -p -np -k -N -t 2 http://www.mbalib.com/
--2011-01-15 22:22:19--  http://www.mbalib.com/
正在解析主机 www.mbalib.com... 110.80.7.42
正在连接 www.mbalib.com|110.80.7.42|:80... 已连接。
已发出 HTTP 请求,正在等待回应... 403 Forbidden
2011-01-15 22:22:20 错误 403:Forbidden。

已转换 0 个文件(在 0 秒之内)。
楼主帮看看是怎么回事
我来了,我看见了,我征服了!
求勾搭,不管饭。
头像
momova
帖子: 3381
注册时间: 2007-07-11 21:43
系统: archlinux
来自: 东江边

Re: 把技术资料网站给镜像下来离线浏览

#14

帖子 momova » 2011-01-15 22:26

如果服务器禁止这样的操作,有什么办法可以绕过?
我来了,我看见了,我征服了!
求勾搭,不管饭。
头像
binker
帖子: 706
注册时间: 2008-09-10 11:54

Re: 把技术资料网站给镜像下来离线浏览

#15

帖子 binker » 2011-01-16 0:59

momova 写了:我这几天也想镜像一个网站。
用楼主的办法镜像不成功。

代码: 全选

$ wget -r -p -np -k -N -t 2 http://www.mbalib.com/
--2011-01-15 22:22:19--  http://www.mbalib.com/
正在解析主机 www.mbalib.com... 110.80.7.42
正在连接 www.mbalib.com|110.80.7.42|:80... 已连接。
已发出 HTTP 请求,正在等待回应... 403 Forbidden
2011-01-15 22:22:20 错误 403:Forbidden。

已转换 0 个文件(在 0 秒之内)。
楼主帮看看是怎么回事
你镜像的这个网站是一个搜索引擎网站,动态技术以及海量内容索引的的网站(和谷歌的网站同类型,后台都是分布式数据库),这些网站服务器规模都是很庞大的,如果镜像的话那些网络文件流量肯定很大的,我们的硬盘装不了那么多 :em04
我一般就镜像一些比较小型的技术网站(整个网站内容加起来不超过10GB的),有的网站全部页面才500多MB, :em09
回复