当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 3 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : tr删除重复字符问题请教
帖子发表于 : 2009-10-05 18:31 

注册: 2009-07-08 12:19
帖子: 5
送出感谢: 0 次
接收感谢: 0 次
我想把dup_w.txt文件中的重复字符都去掉,文件内容如下:
代码:
now, between is a dup word that has 2 e

dup words:
aaaaaaaaaa bbbbbbbbbbb cccccccccc
ddd e fffff gggg


我使用命令:
代码:
tr -s "[a-z]" < dup_w.txt


发现between这个单词中的两个e也被识别成重复字符结果变成1个e了-.-!,我就是想把那些没意义的重复字符给合并,而不影响有意义的单词,像between...

请问各位有什么好办法?


页首
 用户资料  
 
2 楼 
 文章标题 : Re: tr删除重复字符问题请教
帖子发表于 : 2009-10-05 18:52 
头像

注册: 2006-07-02 11:16
帖子: 12522
地址: 廣州
送出感谢: 0 次
接收感谢: 8
dabeixiong 写道:
我想把dup_w.txt文件中的重复字符都去掉,文件内容如下:
代码:
now, between is a dup word that has 2 e

dup words:
aaaaaaaaaa bbbbbbbbbbb cccccccccc
ddd e fffff gggg


我使用命令:
代码:
tr -s "[a-z]" < dup_w.txt


发现between这个单词中的两个e也被识别成重复字符结果变成1个e了-.-!,我就是想把那些没意义的重复字符给合并,而不影响有意义的单词,像between...

请问各位有什么好办法?


那两个 e 的确是重复的 e 啊
你先搞清楚你想做什么


_________________
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。


页首
 用户资料  
 
3 楼 
 文章标题 : Re: tr删除重复字符问题请教
帖子发表于 : 2009-10-05 19:44 

注册: 2009-07-08 12:19
帖子: 5
送出感谢: 0 次
接收感谢: 0 次
To 楼上:
我的想法就是去掉无意义的重复,保留有意义的重复...像between, employee, sheet...这样的单词里面的字符重复都是有意义的...

我能想到的方法就是根据字符重复的次数来识别,因为英语单词里几乎没有字符连续重复3次及以上的情况...所以尝试用了下正则表达式,但是水平有限还是弄不出来T.T


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 3 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译