当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 25 篇帖子 ]  前往页数 1, 2  下一页
作者 内容
1 楼 
 文章标题 : 用脚本提取文本中的数据
帖子发表于 : 2009-08-29 10:58 

注册: 2009-07-13 16:23
帖子: 213
送出感谢: 0 次
接收感谢: 0 次
我的数据格式如下所示:
代码:
ZINC22760753
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -840522670
Performing search ... done.
Refining results ... done.

mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -4.5      0.000      0.000
   2         -4.5      1.308      2.364
   3         -4.4      1.987      3.091
   4         -4.3      3.220      6.599
   5         -4.3      2.274      3.562
   6         -4.2      4.082      7.183
   7         -4.2      2.454      5.251
   8         -4.2      1.985      3.282
   9         -4.1      4.041      7.633
Writing output ... done.
=======================
ZINC22760757
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: 180843744
Performing search ... done.
Refining results ... done.

mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -4.5      0.000      0.000
   2         -4.4      2.471      6.750
   3         -4.3      1.685      6.812
   4         -4.3      3.693      7.234
   5         -4.3      1.882      2.602
   6         -4.2      3.348      7.418
   7         -4.2      3.179      4.780
   8         -4.2      5.332      7.767
Writing output ... done.

每个单元都以ZINC*开始,有时ZINC这一行会重复1-2次。我想通过一个脚本做以下工作:
1.先删去重复的ZINC行。
2.先提取ZINC*作为名称,在提取下面数据中“1”后面的这个数字,如:
ZINC22760757 -4.5
二者之间最好以TAB键隔开,将来方便导入excel中。

我的数据非常长,人工处理不可能完成,只能求助热心战友帮忙编个程序。


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-29 12:58 
头像

注册: 2006-08-24 21:25
帖子: 256
送出感谢: 0 次
接收感谢: 0 次
假设文件名是filename

代码:
cat  filename |uniq|sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |sed 'N;/ZINC.*/s/\n/\t/g'     


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-29 14:13 

注册: 2009-07-13 16:23
帖子: 213
送出感谢: 0 次
接收感谢: 0 次
xzap 写道:
假设文件名是filename

代码:
cat  filename |uniq|sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |sed 'N;/ZINC.*/s/\n/\t/g'     


多谢高手,总体可行,还有个问题需要您解决。
我的文本中有时顶部的ZINC行可能产生2-3个,按您的这个脚本就会使后面的结果产生错位的情况,比如下面这个有3个ZINC重复:

ZINC17109561
ZINC17109561

Detected 1 CPU
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -1516996140
Performing search ... done.
Refining results ... done.

mode | affinity | dist from best mode
| (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
1 -6.6 0.000 0.000
2 -6.1 1.953 3.023
3 -6.0 3.155 6.582
4 -5.8 1.473 2.399
5 -5.5 2.016 5.094
Writing output ... done.
能不能先作一个脚本检查一下ZINC行是否重复,如果重复则删除重复行,谢谢 :em09


页首
 用户资料  
 
4 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-29 14:49 

注册: 2009-07-13 16:23
帖子: 213
送出感谢: 0 次
接收感谢: 0 次
用cat | uniq 不行,因为在下面标记蓝色的行中也会可能有相同的行,这样就误删除了,最好是能鉴别出连续相同的行:
ZINC17176235
Detected 1 CPU
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: -1952890680
Performing search ... done.
Refining results ... done.

mode | affinity | dist from best mode
| (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
1 -5.8 0.000 0.000
2 -5.7 2.430 6.150
3 -5.6 1.993 3.934
4 -5.6 1.784 3.298
5 -5.6 2.305 5.818
Writing output ... done.


页首
 用户资料  
 
5 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-29 15:06 

注册: 2009-07-13 16:23
帖子: 213
送出感谢: 0 次
接收感谢: 0 次
我发现,如果上面染色的行即使与后面的有重复,用cat|uniq也不会删除,似乎cat | uniq只删除连续重复的行吗?


页首
 用户资料  
 
6 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-29 16:51 
头像

注册: 2009-05-20 19:32
帖子: 2462
送出感谢: 0 次
接收感谢: 2
sed 后面才 | uniq 就是了


_________________
irc 聊天室
ubuntu-cn 的irc 频道为
irc.ubuntu.com 8001 #ubuntu-cn
UTF8编码 可用 irssi xchat pidgin weechat 登录

http://webchat.freenode.net/?channels=ubuntu-cn
irc://irc.freenode.net/ubuntu-cn


页首
 用户资料  
 
7 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-29 23:28 
头像

注册: 2006-08-24 21:25
帖子: 256
送出感谢: 0 次
接收感谢: 0 次
O_O_BOT 写道:
sed 后面才 | uniq 就是了

言简意骇,正解。

uniq只删除连续的重复行,所以使用时一般配合sort|uniq这样用,或者sort -u,但是你这里不需要。


代码:
cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'


页首
 用户资料  
 
8 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-30 10:28 

注册: 2009-07-13 16:23
帖子: 213
送出感谢: 0 次
接收感谢: 0 次
先做了cat filename | uniq
然后用了
代码:
cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'


验证了一下可行。按照我上面的应该也可以吧,我怕有些以外的情况我发现不了。我的数据比较多,几十万个,一旦出现移行了,就全毁了。


页首
 用户资料  
 
9 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-30 16:12 
头像

注册: 2009-05-20 19:32
帖子: 2462
送出感谢: 0 次
接收感谢: 2
uniq 可以再往前一步


_________________
irc 聊天室
ubuntu-cn 的irc 频道为
irc.ubuntu.com 8001 #ubuntu-cn
UTF8编码 可用 irssi xchat pidgin weechat 登录

http://webchat.freenode.net/?channels=ubuntu-cn
irc://irc.freenode.net/ubuntu-cn


页首
 用户资料  
 
10 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-30 18:19 
头像

注册: 2006-08-24 21:25
帖子: 256
送出感谢: 0 次
接收感谢: 0 次
syfnet 写道:
先做了cat filename | uniq
然后用了
代码:
cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'


验证了一下可行。按照我上面的应该也可以吧,我怕有些以外的情况我发现不了。我的数据比较多,几十万个,一旦出现移行了,就全毁了。


几十万个这么多阿,那你最好自己再去学习一下bash的脚本。具体情况可以自己再细化处理,上面的脚本只能处理你说的那些情况。具体怎么样,就不清楚了。单行脚本肯定是不完善的,但是核心应该就是这样,别的判断阿什么的自己再写个脚本吧


页首
 用户资料  
 
11 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-30 18:25 
头像

注册: 2006-08-24 21:25
帖子: 256
送出感谢: 0 次
接收感谢: 0 次
xzap 写道:
syfnet 写道:
先做了cat filename | uniq
然后用了
代码:
cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'


验证了一下可行。按照我上面的应该也可以吧,我怕有些以外的情况我发现不了。我的数据比较多,几十万个,一旦出现移行了,就全毁了。


几十万个这么多阿,那你最好自己再去学习一下bash的脚本。具体情况可以自己再细化处理,上面的脚本只能处理你说的那些情况。具体怎么样,就不清楚了。单行脚本肯定是不完善的,但是核心应该就是这样,别的判断阿什么的自己再写个脚本完善一下吧

先cat filname |uniq 完全没必要。

uniq到awk之前效果是一样的,可能十万个的话效率上会感觉稍微快点吧,应该是差不多的吧。


页首
 用户资料  
 
12 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-31 8:35 

注册: 2009-07-13 16:23
帖子: 213
送出感谢: 0 次
接收感谢: 0 次
多谢耐心指导哦。
不过我先用cat uniq,再用您的代码,结果是对的。如果把uniq加入到您说的位置,运行出错了,产生了错行,还没有分析出原因来。
另外,还差一个结果输出,我加了个| tee log.txt,还有其他方法吗


页首
 用户资料  
 
13 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-31 12:16 
头像

注册: 2006-08-24 21:25
帖子: 256
送出感谢: 0 次
接收感谢: 0 次
syfnet 写道:
多谢耐心指导哦。
不过我先用cat uniq,再用您的代码,结果是对的。如果把uniq加入到您说的位置,运行出错了,产生了错行,还没有分析出原因来。
另外,还差一个结果输出,我加了个| tee log.txt,还有其他方法吗


晕倒的问题,结果输出就 >log 就可以了阿

代码:
cat  filename |sed -ne '/ZINC.*/p' -e '/  1   /p'|awk 'NF==1{print $1 "\t"}NF==4{print $2}' |uniq|sed 'N;/ZINC.*/s/\n/\t/g'  >log


页首
 用户资料  
 
14 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-31 18:04 

注册: 2009-07-13 16:23
帖子: 213
送出感谢: 0 次
接收感谢: 0 次
先用cat uniq,再用您的代码,结果是对的。如果把uniq加入到您说的位置,运行出错了,产生了错配,分析一下原因。


页首
 用户资料  
 
15 楼 
 文章标题 : Re: 用脚本提取文本中的数据
帖子发表于 : 2009-08-31 20:53 
头像

注册: 2006-08-24 21:25
帖子: 256
送出感谢: 0 次
接收感谢: 0 次
syfnet 写道:
先用cat uniq,再用您的代码,结果是对的。如果把uniq加入到您说的位置,运行出错了,产生了错配,分析一下原因。


你都没贴什么错误,运行出错了,出什么错呢?哪里有问题都不说怎么分析原因阿,你可以把整个文件完整的发上来我帮你测试下,或者把情况描述的更具体点。
当然了最好是学着自己去解决问题吧。解决问题的过程也就是学习的过程。

我写的这行脚本只能说是绝对能解决你贴出来的那段例子,具体还有什么问题,你不说我怎么知道呢。


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 25 篇帖子 ]  前往页数 1, 2  下一页

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译