用脚本提取文本中的数据

sh/bash/dash/ksh/zsh等Shell脚本
syfnet
帖子: 213
注册时间: 2009-07-13 16:23

用脚本提取文本中的数据

#1

帖子 syfnet » 2009-08-29 10:58

我的数据格式如下所示:

代码: 全选

ZINC22760753
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -840522670
Performing search ... done.
Refining results ... done.

mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -4.5      0.000      0.000
   2         -4.5      1.308      2.364
   3         -4.4      1.987      3.091
   4         -4.3      3.220      6.599
   5         -4.3      2.274      3.562
   6         -4.2      4.082      7.183
   7         -4.2      2.454      5.251
   8         -4.2      1.985      3.282
   9         -4.1      4.041      7.633
Writing output ... done.
=======================
ZINC22760757
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: 180843744
Performing search ... done.
Refining results ... done.

mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -4.5      0.000      0.000
   2         -4.4      2.471      6.750
   3         -4.3      1.685      6.812
   4         -4.3      3.693      7.234
   5         -4.3      1.882      2.602
   6         -4.2      3.348      7.418
   7         -4.2      3.179      4.780
   8         -4.2      5.332      7.767
Writing output ... done.
每个单元都以ZINC*开始,有时ZINC这一行会重复1-2次。我想通过一个脚本做以下工作:
1.先删去重复的ZINC行。
2.先提取ZINC*作为名称,在提取下面数据中“1”后面的这个数字,如:
ZINC22760757 -4.5
二者之间最好以TAB键隔开,将来方便导入excel中。

我的数据非常长,人工处理不可能完成,只能求助热心战友帮忙编个程序。
头像
xzap
帖子: 256
注册时间: 2006-08-24 21:25

Re: 用脚本提取文本中的数据

#2

帖子 xzap » 2009-08-29 12:58

假设文件名是filename

代码: 全选

cat  filename |uniq|sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |sed 'N;/ZINC.*/s/\n/\t/g'     
syfnet
帖子: 213
注册时间: 2009-07-13 16:23

Re: 用脚本提取文本中的数据

#3

帖子 syfnet » 2009-08-29 14:13

xzap 写了:假设文件名是filename

代码: 全选

cat  filename |uniq|sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |sed 'N;/ZINC.*/s/\n/\t/g'     
多谢高手,总体可行,还有个问题需要您解决。
我的文本中有时顶部的ZINC行可能产生2-3个,按您的这个脚本就会使后面的结果产生错位的情况,比如下面这个有3个ZINC重复:

ZINC17109561
ZINC17109561

Detected 1 CPU
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -1516996140
Performing search ... done.
Refining results ... done.

mode | affinity | dist from best mode
| (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
1 -6.6 0.000 0.000
2 -6.1 1.953 3.023
3 -6.0 3.155 6.582
4 -5.8 1.473 2.399
5 -5.5 2.016 5.094
Writing output ... done.
能不能先作一个脚本检查一下ZINC行是否重复,如果重复则删除重复行,谢谢 :em09
syfnet
帖子: 213
注册时间: 2009-07-13 16:23

Re: 用脚本提取文本中的数据

#4

帖子 syfnet » 2009-08-29 14:49

用cat | uniq 不行,因为在下面标记蓝色的行中也会可能有相同的行,这样就误删除了,最好是能鉴别出连续相同的行:
ZINC17176235
Detected 1 CPU
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -1952890680
Performing search ... done.
Refining results ... done.

mode | affinity | dist from best mode
| (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
1 -5.8 0.000 0.000
2 -5.7 2.430 6.150
3 -5.6 1.993 3.934
4 -5.6 1.784 3.298
5 -5.6 2.305 5.818
Writing output ... done.
syfnet
帖子: 213
注册时间: 2009-07-13 16:23

Re: 用脚本提取文本中的数据

#5

帖子 syfnet » 2009-08-29 15:06

我发现,如果上面染色的行即使与后面的有重复,用cat|uniq也不会删除,似乎cat | uniq只删除连续重复的行吗?
头像
O_O_BOT
帖子: 2461
注册时间: 2009-05-20 19:32

Re: 用脚本提取文本中的数据

#6

帖子 O_O_BOT » 2009-08-29 16:51

sed 后面才 | uniq 就是了
irc 聊天室
ubuntu-cn 的irc 频道为
irc.ubuntu.com 8001 #ubuntu-cn
UTF8编码 可用 irssi xchat pidgin weechat 登录

http://webchat.freenode.net/?channels=ubuntu-cn
[url]irc://irc.freenode.net/ubuntu-cn[/url]
头像
xzap
帖子: 256
注册时间: 2006-08-24 21:25

Re: 用脚本提取文本中的数据

#7

帖子 xzap » 2009-08-29 23:28

O_O_BOT 写了:sed 后面才 | uniq 就是了
言简意骇,正解。

uniq只删除连续的重复行,所以使用时一般配合sort|uniq这样用,或者sort -u,但是你这里不需要。

代码: 全选

cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g' 
syfnet
帖子: 213
注册时间: 2009-07-13 16:23

Re: 用脚本提取文本中的数据

#8

帖子 syfnet » 2009-08-30 10:28

先做了cat filename | uniq
然后用了

代码: 全选

cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'
验证了一下可行。按照我上面的应该也可以吧,我怕有些以外的情况我发现不了。我的数据比较多,几十万个,一旦出现移行了,就全毁了。
头像
O_O_BOT
帖子: 2461
注册时间: 2009-05-20 19:32

Re: 用脚本提取文本中的数据

#9

帖子 O_O_BOT » 2009-08-30 16:12

uniq 可以再往前一步
irc 聊天室
ubuntu-cn 的irc 频道为
irc.ubuntu.com 8001 #ubuntu-cn
UTF8编码 可用 irssi xchat pidgin weechat 登录

http://webchat.freenode.net/?channels=ubuntu-cn
[url]irc://irc.freenode.net/ubuntu-cn[/url]
头像
xzap
帖子: 256
注册时间: 2006-08-24 21:25

Re: 用脚本提取文本中的数据

#10

帖子 xzap » 2009-08-30 18:19

syfnet 写了:先做了cat filename | uniq
然后用了

代码: 全选

cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'
验证了一下可行。按照我上面的应该也可以吧,我怕有些以外的情况我发现不了。我的数据比较多,几十万个,一旦出现移行了,就全毁了。
几十万个这么多阿,那你最好自己再去学习一下bash的脚本。具体情况可以自己再细化处理,上面的脚本只能处理你说的那些情况。具体怎么样,就不清楚了。单行脚本肯定是不完善的,但是核心应该就是这样,别的判断阿什么的自己再写个脚本吧
头像
xzap
帖子: 256
注册时间: 2006-08-24 21:25

Re: 用脚本提取文本中的数据

#11

帖子 xzap » 2009-08-30 18:25

xzap 写了:
syfnet 写了:先做了cat filename | uniq
然后用了

代码: 全选

cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'
验证了一下可行。按照我上面的应该也可以吧,我怕有些以外的情况我发现不了。我的数据比较多,几十万个,一旦出现移行了,就全毁了。
几十万个这么多阿,那你最好自己再去学习一下bash的脚本。具体情况可以自己再细化处理,上面的脚本只能处理你说的那些情况。具体怎么样,就不清楚了。单行脚本肯定是不完善的,但是核心应该就是这样,别的判断阿什么的自己再写个脚本完善一下吧
先cat filname |uniq 完全没必要。

uniq到awk之前效果是一样的,可能十万个的话效率上会感觉稍微快点吧,应该是差不多的吧。
syfnet
帖子: 213
注册时间: 2009-07-13 16:23

Re: 用脚本提取文本中的数据

#12

帖子 syfnet » 2009-08-31 8:35

多谢耐心指导哦。
不过我先用cat uniq,再用您的代码,结果是对的。如果把uniq加入到您说的位置,运行出错了,产生了错行,还没有分析出原因来。
另外,还差一个结果输出,我加了个| tee log.txt,还有其他方法吗
头像
xzap
帖子: 256
注册时间: 2006-08-24 21:25

Re: 用脚本提取文本中的数据

#13

帖子 xzap » 2009-08-31 12:16

syfnet 写了:多谢耐心指导哦。
不过我先用cat uniq,再用您的代码,结果是对的。如果把uniq加入到您说的位置,运行出错了,产生了错行,还没有分析出原因来。
另外,还差一个结果输出,我加了个| tee log.txt,还有其他方法吗
晕倒的问题,结果输出就 >log 就可以了阿

代码: 全选

cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'  >log
syfnet
帖子: 213
注册时间: 2009-07-13 16:23

Re: 用脚本提取文本中的数据

#14

帖子 syfnet » 2009-08-31 18:04

先用cat uniq,再用您的代码,结果是对的。如果把uniq加入到您说的位置,运行出错了,产生了错配,分析一下原因。
头像
xzap
帖子: 256
注册时间: 2006-08-24 21:25

Re: 用脚本提取文本中的数据

#15

帖子 xzap » 2009-08-31 20:53

syfnet 写了:先用cat uniq,再用您的代码,结果是对的。如果把uniq加入到您说的位置,运行出错了,产生了错配,分析一下原因。
你都没贴什么错误,运行出错了,出什么错呢?哪里有问题都不说怎么分析原因阿,你可以把整个文件完整的发上来我帮你测试下,或者把情况描述的更具体点。
当然了最好是学着自己去解决问题吧。解决问题的过程也就是学习的过程。

我写的这行脚本只能说是绝对能解决你贴出来的那段例子,具体还有什么问题,你不说我怎么知道呢。
回复