请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

sh/bash/dash/ksh/zsh等Shell脚本
newway
帖子: 13
注册时间: 2008-07-03 19:07
联系:

请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#1

帖子 newway » 2009-07-27 23:57

我经常写一些程序, 一行行读取大型文本, 然后处理 (比如匹配, 大小写转换等等), 通常是用perl, 也有bash 等等

由于文本很大 (比如3亿行), 任何处理都需要N天, 这个过程中服务器万一死机或者需要被重启, 就必须从头来, 很郁闷。

我在想有没有办法,在程序中断后(Ctrl+c 或者重启), 能留下处理了多少行的痕迹, 以便下次运行可以从断了的地方继续?

我曾经试过在程序里添加一个int变量,每处理1行就加1, 然后输入覆盖到一个文本文件中,这样程序中断,仍然能从这个文件中知道已经运行了多少行了。

但是这样作的问题就是加剧了磁盘读写, 增加了运行时间。。。

There must be a better way, anyone can shed some light on me?

Thanks.
头像
xiooli
帖子: 6956
注册时间: 2007-11-19 21:51
来自: 成都
联系:

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#2

帖子 xiooli » 2009-07-28 0:28

其实,不必每执行一行就写一次文件吧,执行比如100/1000行再写一次,反正中断了重新执行也就百吧行的差距,比起频繁写文件引起的效率下降根本就不算什么。
newway
帖子: 13
注册时间: 2008-07-03 19:07
联系:

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#3

帖子 newway » 2009-07-28 1:21

我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
aerofox
帖子: 1453
注册时间: 2008-05-24 8:30

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#4

帖子 aerofox » 2009-07-28 9:36

那就必须每行写,而且记录行号的文件要有备份,否则正在写是断电了还是可能有问题。
tubunu
帖子: 34
注册时间: 2009-07-13 11:49

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#5

帖子 tubunu » 2009-07-28 10:56

在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#6

帖子 eexpress » 2009-07-28 11:29

ps4就是作这个提示的啊。搜索论坛ps4
● 鸣学
头像
xiooli
帖子: 6956
注册时间: 2007-11-19 21:51
来自: 成都
联系:

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#7

帖子 xiooli » 2009-07-28 12:04

tubunu 写了:在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。
每次都打印到屏幕的话也会降低很多效率的阿。
tubunu
帖子: 34
注册时间: 2009-07-13 11:49

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#8

帖子 tubunu » 2009-07-28 13:59

xiooli 写了:
tubunu 写了:在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。
每次都打印到屏幕的话也会降低很多效率的阿。
'降低很多效率'中的很多是指多少呢?需要达到什么数量级才会感到效率的下降呢?我想这样的回显由shell自己完成,不需要解释什么命令和subshell的话效率还是很高的。

我在一台AIX上粗略的做了一下测试,没加回显的状态下执行一万次date需要60秒,而加了回显的状态下执行一万次date需要62秒,但系统上还有其他应用在跑,测试也没什么意义。。。

CPU的情况如下:
Processor Type: PowerPC_POWER5
Number Of Processors: 2
Processor Clock Speed: 1656 MHz
CPU Type: 64-bit
Kernel Type: 64-bit
tubunu
帖子: 34
注册时间: 2009-07-13 11:49

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#9

帖子 tubunu » 2009-07-28 14:19

newway 写了:我经常写一些程序, 一行行读取大型文本, 然后处理 (比如匹配, 大小写转换等等), 通常是用perl, 也有bash 等等

由于文本很大 (比如3亿行), 任何处理都需要N天, 这个过程中服务器万一死机或者需要被重启, 就必须从头来, 很郁闷。

我在想有没有办法,在程序中断后(Ctrl+c 或者重启), 能留下处理了多少行的痕迹, 以便下次运行可以从断了的地方继续?

我曾经试过在程序里添加一个int变量,每处理1行就加1, 然后输入覆盖到一个文本文件中,这样程序中断,仍然能从这个文件中知道已经运行了多少行了。

但是这样作的问题就是加剧了磁盘读写, 增加了运行时间。。。

There must be a better way, anyone can shed some light on me?

Thanks.
不建议用写文件这种方式进行记录,因为变量自增,写文件,执行应用是3个独立的动作,你不知道script将会在那个点被中断,也不能保证变量的值真能代表被处理的记录。
头像
xiooli
帖子: 6956
注册时间: 2007-11-19 21:51
来自: 成都
联系:

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#10

帖子 xiooli » 2009-07-28 15:00

tubunu 写了:
xiooli 写了:
tubunu 写了:在你的shell script开始前加上 set -v,则每次执行的命令将会回显,你就可以知道执行到哪条命令时结束了。
每次都打印到屏幕的话也会降低很多效率的阿。
'降低很多效率'中的很多是指多少呢?需要达到什么数量级才会感到效率的下降呢?我想这样的回显由shell自己完成,不需要解释什么命令和subshell的话效率还是很高的。

我在一台AIX上粗略的做了一下测试,没加回显的状态下执行一万次date需要60秒,而加了回显的状态下执行一万次date需要62秒,但系统上还有其他应用在跑,测试也没什么意义。。。

CPU的情况如下:
Processor Type: PowerPC_POWER5
Number Of Processors: 2
Processor Clock Speed: 1656 MHz
CPU Type: 64-bit
Kernel Type: 64-bit
呵呵,受教了,这种回显看来比直接在脚本里面echo要有效率些。
tubunu
帖子: 34
注册时间: 2009-07-13 11:49

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#11

帖子 tubunu » 2009-07-28 16:19

xiooli 写了:呵呵,受教了,这种回显看来比直接在脚本里面echo要有效率些。
大家交流学习而已,交流可以让我们找到更好的办法。
头像
BigSnake.NET
帖子: 12522
注册时间: 2006-07-02 11:16
来自: 廣州
联系:

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#12

帖子 BigSnake.NET » 2009-07-28 16:42

newway 写了:我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
怎么会丢失呢?
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。
newway
帖子: 13
注册时间: 2008-07-03 19:07
联系:

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#13

帖子 newway » 2009-07-28 19:07

BigSnake.NET 写了:
newway 写了:我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
怎么会丢失呢?
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..
恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)

shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?
billbear
帖子: 3681
注册时间: 2008-05-03 23:42

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#14

帖子 billbear » 2009-07-28 19:35

newway 写了:
BigSnake.NET 写了:
newway 写了:我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
怎么会丢失呢?
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..
恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)

shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?
他的意思是让你雇一个人在电脑前看着。
头像
xiooli
帖子: 6956
注册时间: 2007-11-19 21:51
来自: 成都
联系:

Re: 请教一个小文本读取程序技巧 - 关于程序意外中断后,用户能知道执行多少

#15

帖子 xiooli » 2009-07-28 19:35

newway 写了:
BigSnake.NET 写了:
newway 写了:我知道,如果我不想丢失任何一行呢? 比如是一个信用卡记录。。。
怎么会丢失呢?
例如你每处理100行做一下记录,例如说你做到290行时挂了,应该能够找到处理了200行的记录, 然后你从201行继续就行了..
恩,这样会出现另外一种情况,就是201-290 行的数据被重复计算了, 当然可以再次查找重复的数据然后skip掉,然而有时候这种
查找也很费时间。
(还是用信用卡作例子, 每行有这个用户的花费, 然后我还输入到database这个用户的月平均花费, 那么 重复的数据就会干扰里面已有的数据)

shell script开始前加上 set -v,则每次执行的命令将会回显, 请问这个跟我在perl里面直接pirnt 有区别么, 这样一来
如果我直接屏显,不写入一个log文件,terminal关了或者重启了,不是也没了么? 如果写一个log 文件, 也有n G大小了?
写log用覆盖写,像echo xx >xxx.log那样就只有一行了哈。直接print应该比set -v要慢些吧。
回复