当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 16 篇帖子 ]  前往页数 1, 2  下一页
作者 内容
1 楼 
 文章标题 : 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-27 23:57 

注册: 2008-07-03 19:07
帖子: 13
送出感谢: 0 次
接收感谢: 0 次
我经常写一些程序, 一行行读取大型文本, 然后处理 (比如匹配, 大小写转换等等), 通常是用perl, 也有bash 等等

由于文本很大 (比如3亿行), 任何处理都需要N天, 这个过程中服务器万一死机或者需要被重启, 就必须从头来, 很郁闷。

我在想有没有办法,在程序中断后(Ctrl+c 或者重启), 能留下处理了多少行的痕迹, 以便下次运行可以从断了的地方继续?

我曾经试过在程序里添加一个int变量,每处理1行就加1, 然后输入覆盖到一个文本文件中,这样程序中断,仍然能从这个文件中知道已经运行了多少行了。

但是这样作的问题就是加剧了磁盘读写, 增加了运行时间。。。

There must be a better way, anyone can shed some light on me?

Thanks.


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 0:28 
头像

注册: 2007-11-19 21:51
帖子: 6956
地址: 成都
送出感谢: 0 次
接收感谢: 4
其实,不必每执行一行就写一次文件吧,执行比如100/1000行再写一次,反正中断了重新执行也就百吧行的差距,比起频繁写文件引起的效率下降根本就不算什么。


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 1:21 

注册: 2008-07-03 19:07
帖子: 13
送出感谢: 0 次
接收感谢: 0 次
我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 9:36 

注册: 2008-05-24 8:30
帖子: 1453
送出感谢: 2
接收感谢: 30
那就必须每行写,而且记录行号的文件要有备份,否则正在写是断电了还是可能有问题。


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 10:56 

注册: 2009-07-13 11:49
帖子: 34
送出感谢: 0 次
接收感谢: 0 次
在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 11:29 
头像

注册: 2005-08-14 21:55
帖子: 58428
地址: 长沙
送出感谢: 4
接收感谢: 272
ps4就是作这个提示的啊。搜索论坛ps4


_________________
● 鸣学


页首
 用户资料  
 
7 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 12:04 
头像

注册: 2007-11-19 21:51
帖子: 6956
地址: 成都
送出感谢: 0 次
接收感谢: 4
tubunu 写道:
在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。

每次都打印到屏幕的话也会降低很多效率的阿。


页首
 用户资料  
 
8 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 13:59 

注册: 2009-07-13 11:49
帖子: 34
送出感谢: 0 次
接收感谢: 0 次
xiooli 写道:
tubunu 写道:
在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。

每次都打印到屏幕的话也会降低很多效率的阿。


'降低很多效率'中的很多是指多少呢?需要达到什么数量级才会感到效率的下降呢?我想这样的回显由shell自己完成,不需要解释什么命令和subshell的话效率还是很高的。

我在一台AIX上粗略的做了一下测试,没加回显的状态下执行一万次date需要60秒,而加了回显的状态下执行一万次date需要62秒,但系统上还有其他应用在跑,测试也没什么意义。。。

CPU的情况如下:
Processor Type: PowerPC_POWER5
Number Of Processors: 2
Processor Clock Speed: 1656 MHz
CPU Type: 64-bit
Kernel Type: 64-bit


页首
 用户资料  
 
9 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 14:19 

注册: 2009-07-13 11:49
帖子: 34
送出感谢: 0 次
接收感谢: 0 次
newway 写道:
我经常写一些程序, 一行行读取大型文本, 然后处理 (比如匹配, 大小写转换等等), 通常是用perl, 也有bash 等等

由于文本很大 (比如3亿行), 任何处理都需要N天, 这个过程中服务器万一死机或者需要被重启, 就必须从头来, 很郁闷。

我在想有没有办法,在程序中断后(Ctrl+c 或者重启), 能留下处理了多少行的痕迹, 以便下次运行可以从断了的地方继续?

我曾经试过在程序里添加一个int变量,每处理1行就加1, 然后输入覆盖到一个文本文件中,这样程序中断,仍然能从这个文件中知道已经运行了多少行了。

但是这样作的问题就是加剧了磁盘读写, 增加了运行时间。。。

There must be a better way, anyone can shed some light on me?

Thanks.


不建议用写文件这种方式进行记录,因为变量自增,写文件,执行应用是3个独立的动作,你不知道script将会在那个点被中断,也不能保证变量的值真能代表被处理的记录。


页首
 用户资料  
 
10 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 15:00 
头像

注册: 2007-11-19 21:51
帖子: 6956
地址: 成都
送出感谢: 0 次
接收感谢: 4
tubunu 写道:
xiooli 写道:
tubunu 写道:
在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。

每次都打印到屏幕的话也会降低很多效率的阿。


'降低很多效率'中的很多是指多少呢?需要达到什么数量级才会感到效率的下降呢?我想这样的回显由shell自己完成,不需要解释什么命令和subshell的话效率还是很高的。

我在一台AIX上粗略的做了一下测试,没加回显的状态下执行一万次date需要60秒,而加了回显的状态下执行一万次date需要62秒,但系统上还有其他应用在跑,测试也没什么意义。。。

CPU的情况如下:
Processor Type: PowerPC_POWER5
Number Of Processors: 2
Processor Clock Speed: 1656 MHz
CPU Type: 64-bit
Kernel Type: 64-bit

呵呵,受教了,这种回显看来比直接在脚本里面echo要有效率些。


页首
 用户资料  
 
11 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 16:19 

注册: 2009-07-13 11:49
帖子: 34
送出感谢: 0 次
接收感谢: 0 次
xiooli 写道:
呵呵,受教了,这种回显看来比直接在脚本里面echo要有效率些。


大家交流学习而已,交流可以让我们找到更好的办法。


页首
 用户资料  
 
12 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 16:42 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
newway 写道:
我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。


怎么会丢失呢?
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
13 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 19:07 

注册: 2008-07-03 19:07
帖子: 13
送出感谢: 0 次
接收感谢: 0 次
BigSnake.NET 写道:
newway 写道:
我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。


怎么会丢失呢?
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..


恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)

shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?


页首
 用户资料  
 
14 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 19:35 

注册: 2008-05-03 23:42
帖子: 3681
送出感谢: 4
接收感谢: 6
newway 写道:
BigSnake.NET 写道:
newway 写道:
我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。


怎么会丢失呢?
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..


恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)

shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?


他的意思是让你雇一个人在电脑前看着。


页首
 用户资料  
 
15 楼 
 文章标题 : Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
帖子发表于 : 2009-07-28 19:35 
头像

注册: 2007-11-19 21:51
帖子: 6956
地址: 成都
送出感谢: 0 次
接收感谢: 4
newway 写道:
BigSnake.NET 写道:
newway 写道:
我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。


怎么会丢失呢?
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..


恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)

shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?

写log用覆盖写,像echo xx >xxx.log那样就只有一行了哈。直接print应该比set -v要慢些吧。


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 16 篇帖子 ]  前往页数 1, 2  下一页

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译