当前时区为 UTC + 8 小时



发表新帖 回复这个主题  [ 3 篇帖子 ] 
作者 内容
1 楼 
 文章标题 : 如何去除中文的标点符号?
帖子发表于 : 2009-08-08 15:37 
头像

注册: 2007-08-20 16:34
帖子: 110
地址: Earth
送出感谢: 0 次
接收感谢: 1

cat abc.txt | tr "," " "
或者
cat abc.txt | sed 's/[;:,。?()]//g'
这两种方式都不行呀,
上面2种方式可以删除英文的符号,,但中文的不行呀


_________________
Dropbox!点我注册,你的起点高了500M,我也能多得到500M,共赢!
--------
HP V3808TU (2008.03.08---2012.10.08)
ASUS N56VZ (2012.10.08---未来)


页首
 用户资料  
 
2 楼 
 文章标题 : Re: 如何去除中文的标点符号?
帖子发表于 : 2009-08-08 15:45 

注册: 2008-09-06 2:00
帖子: 418
送出感谢: 0 次
接收感谢: 0 次
是utf-8编码吗?


页首
 用户资料  
 
3 楼 
 文章标题 : Re: 如何去除中文的标点符号?
帖子发表于 : 2009-08-08 19:08 
头像

注册: 2007-08-20 16:34
帖子: 110
地址: Earth
送出感谢: 0 次
接收感谢: 1
自己搞定了!
先把全部中文字符替换成英文的,再一起删除

sed 's/[;:,。()?]/,/g' > data

cat data | sed 's/[;:,.()?]/ /g' > data2

这样就可以了


_________________
Dropbox!点我注册,你的起点高了500M,我也能多得到500M,共赢!
--------
HP V3808TU (2008.03.08---2012.10.08)
ASUS N56VZ (2012.10.08---未来)


页首
 用户资料  
 
显示帖子 :  排序  
发表新帖 回复这个主题  [ 3 篇帖子 ] 

当前时区为 UTC + 8 小时


在线用户

正在浏览此版面的用户:没有注册用户 和 3 位游客


不能 在这个版面发表主题
不能 在这个版面回复主题
不能 在这个版面编辑帖子
不能 在这个版面删除帖子
不能 在这个版面提交附件

前往 :  
本站点为公益性站点,用于推广开源自由软件,由 DiaHosting VPSBudgetVM VPS 提供服务。
我们认为:软件应可免费取得,软件工具在各种语言环境下皆可使用,且不会有任何功能上的差异;
人们应有定制和修改软件的自由,且方式不受限制,只要他们自认为合适。

Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
简体中文语系由 王笑宇 翻译