tr删除重复字符问题请教

sh/bash/dash/ksh/zsh等Shell脚本
回复
dabeixiong
帖子: 5
注册时间: 2009-07-08 12:19

tr删除重复字符问题请教

#1

帖子 dabeixiong » 2009-10-05 18:31

我想把dup_w.txt文件中的重复字符都去掉,文件内容如下:

代码: 全选

now, between is a dup word that has 2 e

dup words:
aaaaaaaaaa bbbbbbbbbbb cccccccccc
ddd e fffff gggg
我使用命令:

代码: 全选

tr -s "[a-z]" < dup_w.txt 
发现between这个单词中的两个e也被识别成重复字符结果变成1个e了-.-!,我就是想把那些没意义的重复字符给合并,而不影响有意义的单词,像between...

请问各位有什么好办法?
头像
BigSnake.NET
帖子: 12522
注册时间: 2006-07-02 11:16
来自: 廣州
联系:

Re: tr删除重复字符问题请教

#2

帖子 BigSnake.NET » 2009-10-05 18:52

dabeixiong 写了:我想把dup_w.txt文件中的重复字符都去掉,文件内容如下:

代码: 全选

now, between is a dup word that has 2 e

dup words:
aaaaaaaaaa bbbbbbbbbbb cccccccccc
ddd e fffff gggg
我使用命令:

代码: 全选

tr -s "[a-z]" < dup_w.txt 
发现between这个单词中的两个e也被识别成重复字符结果变成1个e了-.-!,我就是想把那些没意义的重复字符给合并,而不影响有意义的单词,像between...

请问各位有什么好办法?
那两个 e 的确是重复的 e 啊
你先搞清楚你想做什么
^_^ ~~~
要理解递归,首先要理解递归。

地球人都知道,理论上,理论跟实际是没有差别的,但实际上,理论跟实际的差别是相当大滴。
dabeixiong
帖子: 5
注册时间: 2009-07-08 12:19

Re: tr删除重复字符问题请教

#3

帖子 dabeixiong » 2009-10-05 19:44

To 楼上:
我的想法就是去掉无意义的重复,保留有意义的重复...像between, employee, sheet...这样的单词里面的字符重复都是有意义的...

我能想到的方法就是根据字符重复的次数来识别,因为英语单词里几乎没有字符连续重复3次及以上的情况...所以尝试用了下正则表达式,但是水平有限还是弄不出来T.T
回复