用脚本提取文本中的数据

syfnet · #1

我的数据格式如下所示：

代码：全选

ZINC22760753
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -840522670
Performing search ... done.
Refining results ... done.

mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -4.5      0.000      0.000
   2         -4.5      1.308      2.364
   3         -4.4      1.987      3.091
   4         -4.3      3.220      6.599
   5         -4.3      2.274      3.562
   6         -4.2      4.082      7.183
   7         -4.2      2.454      5.251
   8         -4.2      1.985      3.282
   9         -4.1      4.041      7.633
Writing output ... done.
=======================
ZINC22760757
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: 180843744
Performing search ... done.
Refining results ... done.

mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -4.5      0.000      0.000
   2         -4.4      2.471      6.750
   3         -4.3      1.685      6.812
   4         -4.3      3.693      7.234
   5         -4.3      1.882      2.602
   6         -4.2      3.348      7.418
   7         -4.2      3.179      4.780
   8         -4.2      5.332      7.767
Writing output ... done.

每个单元都以ZINC*开始，有时ZINC这一行会重复1-2次。我想通过一个脚本做以下工作：
1.先删去重复的ZINC行。
2.先提取ZINC*作为名称，在提取下面数据中“1”后面的这个数字，如：
ZINC22760757 -4.5
二者之间最好以TAB键隔开，将来方便导入excel中。

我的数据非常长，人工处理不可能完成，只能求助热心战友帮忙编个程序。

xzap · #2

假设文件名是filename

代码：全选

cat  filename |uniq|sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |sed 'N;/ZINC.*/s/\n/\t/g'

syfnet · #3

xzap 写了：假设文件名是filename

代码：全选

cat  filename |uniq|sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |sed 'N;/ZINC.*/s/\n/\t/g'

多谢高手，总体可行，还有个问题需要您解决。
我的文本中有时顶部的ZINC行可能产生2－3个，按您的这个脚本就会使后面的结果产生错位的情况，比如下面这个有3个ZINC重复：
ZINC17109561
ZINC17109561
Detected 1 CPU
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -1516996140
Performing search ... done.
Refining results ... done.

mode | affinity | dist from best mode
| (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
1 -6.6 0.000 0.000
2 -6.1 1.953 3.023
3 -6.0 3.155 6.582
4 -5.8 1.473 2.399
5 -5.5 2.016 5.094
Writing output ... done.
能不能先作一个脚本检查一下ZINC行是否重复，如果重复则删除重复行，谢谢

syfnet · #4

用cat | uniq 不行，因为在下面标记蓝色的行中也会可能有相同的行，这样就误删除了，最好是能鉴别出连续相同的行：
ZINC17176235
Detected 1 CPU
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -1952890680
Performing search ... done.
Refining results ... done.

mode | affinity | dist from best mode
| (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
1 -5.8 0.000 0.000
2 -5.7 2.430 6.150
3 -5.6 1.993 3.934
4 -5.6 1.784 3.298
5 -5.6 2.305 5.818
Writing output ... done.

syfnet · #5

我发现，如果上面染色的行即使与后面的有重复，用cat|uniq也不会删除，似乎cat ｜ uniq只删除连续重复的行吗？

O_O_BOT · #6

sed 后面才 | uniq 就是了

xzap · #7

O_O_BOT 写了：sed 后面才 | uniq 就是了

言简意骇，正解。

uniq只删除连续的重复行，所以使用时一般配合sort|uniq这样用，或者sort -u，但是你这里不需要。

代码：全选

cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'

syfnet · #8

先做了cat filename | uniq
然后用了

代码：全选

cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'

验证了一下可行。按照我上面的应该也可以吧，我怕有些以外的情况我发现不了。我的数据比较多，几十万个，一旦出现移行了，就全毁了。

O_O_BOT · #9

uniq 可以再往前一步

xzap · #10

syfnet 写了：先做了cat filename | uniq
然后用了
代码：全选
cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'
验证了一下可行。按照我上面的应该也可以吧，我怕有些以外的情况我发现不了。我的数据比较多，几十万个，一旦出现移行了，就全毁了。

几十万个这么多阿，那你最好自己再去学习一下bash的脚本。具体情况可以自己再细化处理，上面的脚本只能处理你说的那些情况。具体怎么样，就不清楚了。单行脚本肯定是不完善的，但是核心应该就是这样，别的判断阿什么的自己再写个脚本吧

xzap · #11

xzap 写了：
syfnet 写了：先做了cat filename | uniq
然后用了
代码：全选
cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'
验证了一下可行。按照我上面的应该也可以吧，我怕有些以外的情况我发现不了。我的数据比较多，几十万个，一旦出现移行了，就全毁了。
几十万个这么多阿，那你最好自己再去学习一下bash的脚本。具体情况可以自己再细化处理，上面的脚本只能处理你说的那些情况。具体怎么样，就不清楚了。单行脚本肯定是不完善的，但是核心应该就是这样，别的判断阿什么的自己再写个脚本完善一下吧

先cat filname |uniq 完全没必要。

uniq到awk之前效果是一样的，可能十万个的话效率上会感觉稍微快点吧，应该是差不多的吧。

syfnet · #12

多谢耐心指导哦。
不过我先用cat uniq，再用您的代码，结果是对的。如果把uniq加入到您说的位置，运行出错了，产生了错行，还没有分析出原因来。
另外，还差一个结果输出，我加了个| tee log.txt，还有其他方法吗

xzap · #13

syfnet 写了：多谢耐心指导哦。
不过我先用cat uniq，再用您的代码，结果是对的。如果把uniq加入到您说的位置，运行出错了，产生了错行，还没有分析出原因来。
另外，还差一个结果输出，我加了个| tee log.txt，还有其他方法吗

晕倒的问题，结果输出就 >log 就可以了阿

代码：全选

cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'  >log

syfnet · #14

先用cat uniq，再用您的代码，结果是对的。如果把uniq加入到您说的位置，运行出错了，产生了错配，分析一下原因。

xzap · #15

syfnet 写了：先用cat uniq，再用您的代码，结果是对的。如果把uniq加入到您说的位置，运行出错了，产生了错配，分析一下原因。

你都没贴什么错误，运行出错了，出什么错呢？哪里有问题都不说怎么分析原因阿，你可以把整个文件完整的发上来我帮你测试下，或者把情况描述的更具体点。
当然了最好是学着自己去解决问题吧。解决问题的过程也就是学习的过程。

我写的这行脚本只能说是绝对能解决你贴出来的那段例子，具体还有什么问题，你不说我怎么知道呢。

用脚本提取文本中的数据

用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据

Re: 用脚本提取文本中的数据