请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
-
- 帖子: 13
- 注册时间: 2008-07-03 19:07
- 联系:
请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
我经常写一些程序, 一行行读取大型文本, 然后处理 (比如匹配, 大小写转换等等), 通常是用perl, 也有bash 等等
由于文本很大 (比如3亿行), 任何处理都需要N天, 这个过程中服务器万一死机或者需要被重启, 就必须从头来, 很郁闷。
我在想有没有办法,在程序中断后(Ctrl+c 或者重启), 能留下处理了多少行的痕迹, 以便下次运行可以从断了的地方继续?
我曾经试过在程序里添加一个int变量,每处理1行就加1, 然后输入覆盖到一个文本文件中,这样程序中断,仍然能从这个文件中知道已经运行了多少行了。
但是这样作的问题就是加剧了磁盘读写, 增加了运行时间。。。
There must be a better way, anyone can shed some light on me?
Thanks.
由于文本很大 (比如3亿行), 任何处理都需要N天, 这个过程中服务器万一死机或者需要被重启, 就必须从头来, 很郁闷。
我在想有没有办法,在程序中断后(Ctrl+c 或者重启), 能留下处理了多少行的痕迹, 以便下次运行可以从断了的地方继续?
我曾经试过在程序里添加一个int变量,每处理1行就加1, 然后输入覆盖到一个文本文件中,这样程序中断,仍然能从这个文件中知道已经运行了多少行了。
但是这样作的问题就是加剧了磁盘读写, 增加了运行时间。。。
There must be a better way, anyone can shed some light on me?
Thanks.
- xiooli
- 帖子: 6956
- 注册时间: 2007-11-19 21:51
- 来自: 成都
- 联系:
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
其实,不必每执行一行就写一次文件吧,执行比如100/1000行再写一次,反正中断了重新执行也就百吧行的差距,比起频繁写文件引起的效率下降根本就不算什么。
-
- 帖子: 13
- 注册时间: 2008-07-03 19:07
- 联系:
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
-
- 帖子: 1453
- 注册时间: 2008-05-24 8:30
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
那就必须每行写,而且记录行号的文件要有备份,否则正在写是断电了还是可能有问题。
-
- 帖子: 34
- 注册时间: 2009-07-13 11:49
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。
- eexpress
- 帖子: 58428
- 注册时间: 2005-08-14 21:55
- 来自: 长沙
- xiooli
- 帖子: 6956
- 注册时间: 2007-11-19 21:51
- 来自: 成都
- 联系:
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
每次都打印到屏幕的话也会降低很多效率的阿。tubunu 写了:在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。
-
- 帖子: 34
- 注册时间: 2009-07-13 11:49
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
'降低很多效率'中的很多是指多少呢?需要达到什么数量级才会感到效率的下降呢?我想这样的回显由shell自己完成,不需要解释什么命令和subshell的话效率还是很高的。xiooli 写了:每次都打印到屏幕的话也会降低很多效率的阿。tubunu 写了:在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。
我在一台AIX上粗略的做了一下测试,没加回显的状态下执行一万次date需要60秒,而加了回显的状态下执行一万次date需要62秒,但系统上还有其他应用在跑,测试也没什么意义。。。
CPU的情况如下:
Processor Type: PowerPC_POWER5
Number Of Processors: 2
Processor Clock Speed: 1656 MHz
CPU Type: 64-bit
Kernel Type: 64-bit
-
- 帖子: 34
- 注册时间: 2009-07-13 11:49
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
不建议用写文件这种方式进行记录,因为变量自增,写文件,执行应用是3个独立的动作,你不知道script将会在那个点被中断,也不能保证变量的值真能代表被处理的记录。newway 写了:我经常写一些程序, 一行行读取大型文本, 然后处理 (比如匹配, 大小写转换等等), 通常是用perl, 也有bash 等等
由于文本很大 (比如3亿行), 任何处理都需要N天, 这个过程中服务器万一死机或者需要被重启, 就必须从头来, 很郁闷。
我在想有没有办法,在程序中断后(Ctrl+c 或者重启), 能留下处理了多少行的痕迹, 以便下次运行可以从断了的地方继续?
我曾经试过在程序里添加一个int变量,每处理1行就加1, 然后输入覆盖到一个文本文件中,这样程序中断,仍然能从这个文件中知道已经运行了多少行了。
但是这样作的问题就是加剧了磁盘读写, 增加了运行时间。。。
There must be a better way, anyone can shed some light on me?
Thanks.
- xiooli
- 帖子: 6956
- 注册时间: 2007-11-19 21:51
- 来自: 成都
- 联系:
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
呵呵,受教了,这种回显看来比直接在脚本里面echo要有效率些。tubunu 写了:'降低很多效率'中的很多是指多少呢?需要达到什么数量级才会感到效率的下降呢?我想这样的回显由shell自己完成,不需要解释什么命令和subshell的话效率还是很高的。xiooli 写了:每次都打印到屏幕的话也会降低很多效率的阿。tubunu 写了:在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。
我在一台AIX上粗略的做了一下测试,没加回显的状态下执行一万次date需要60秒,而加了回显的状态下执行一万次date需要62秒,但系统上还有其他应用在跑,测试也没什么意义。。。
CPU的情况如下:
Processor Type: PowerPC_POWER5
Number Of Processors: 2
Processor Clock Speed: 1656 MHz
CPU Type: 64-bit
Kernel Type: 64-bit
-
- 帖子: 34
- 注册时间: 2009-07-13 11:49
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
大家交流学习而已,交流可以让我们找到更好的办法。xiooli 写了:呵呵,受教了,这种回显看来比直接在脚本里面echo要有效率些。
- BigSnake.NET
- 帖子: 12522
- 注册时间: 2006-07-02 11:16
- 来自: 廣州
- 联系:
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
怎么会丢失呢?newway 写了:我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..
^_^ ~~~
要理解递归,首先要理解递归。
地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。
要理解递归,首先要理解递归。
地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。
-
- 帖子: 13
- 注册时间: 2008-07-03 19:07
- 联系:
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种BigSnake.NET 写了:怎么会丢失呢?newway 写了:我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)
shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?
-
- 帖子: 3681
- 注册时间: 2008-05-03 23:42
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
他的意思是让你雇一个人在电脑前看着。newway 写了:恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种BigSnake.NET 写了:怎么会丢失呢?newway 写了:我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)
shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?
- xiooli
- 帖子: 6956
- 注册时间: 2007-11-19 21:51
- 来自: 成都
- 联系:
Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少
写log用覆盖写,像echo xx >xxx.log那样就只有一行了哈。直接print应该比set -v要慢些吧。newway 写了:恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种BigSnake.NET 写了:怎么会丢失呢?newway 写了:我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)
shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?