startdict中的语音包OtdRealPeopleTTS容量实在太大,打算压缩一下(已上传FTP供下载)

OOo,TeX,KO,ABI,GIMP,Picasa,ProE,QCAD,Inkscape,Kicad,Eagle
头像
zshmail
帖子: 270
注册时间: 2006-07-03 9:12
送出感谢: 0
接收感谢: 0
联系:

startdict中的语音包OtdRealPeopleTTS容量实在太大,打算压缩一下(已上传FTP供下载)

#1

帖子 zshmail » 2008-04-29 23:19

startdict中的语音包OtdRealPeopleTTS容量实在太大,打算压缩一下,然后和WyabdcRealPeopleTTS语音包整理成一个压缩包,删除那些重复的词汇,容量应该可以大的减少,总的语音包应该不会超过600MB。本人能力有限,想通过干些体力活来回报社区。

有需要的朋友可以等一下,顺便告诉我怎么上传到社区的FTP服务器,忘了地址和密码了。


=========================================================

现在已全部压缩完毕,以WyabdcRealPeopleTTS为基础(因其词占空间小),加上OtdRealPeopleTTS中的词,去除了OtdRealPeopleTTS中与WyabdcRealPeopleTTS重叠的词,总共为27953个词汇,大小为264MB,压缩包为150MB(标准压缩)。

现正申请上传社区FTP的权限...

==============================================================

http://ubuntu:ubuntuftp@ftp.ubuntu.org. ... pleTTS.zip

已上传成功!
上次由 zshmail 在 2008-05-02 20:43,总共编辑 7 次。
头像
sammysun
帖子: 4088
注册时间: 2007-12-08 23:33
来自: SCUT-guangzhou
送出感谢: 0
接收感谢: 0

#2

帖子 sammysun » 2008-04-30 12:06

支持,正需要呢,WyabdcRealPeopleTTS的词汇感觉太少了~~
mang.lee
帖子: 54
注册时间: 2008-03-28 12:10
送出感谢: 0
接收感谢: 0
联系:

#3

帖子 mang.lee » 2008-04-30 12:19

在精神上一定强烈支持你。
dbzhang800
帖子: 3182
注册时间: 2006-03-10 15:10
来自: xi'an China
送出感谢: 0
接收感谢: 2 次
联系:

#4

帖子 dbzhang800 » 2008-04-30 13:03

OtdRealPeopleTTS 本身并不大,只有 112.3M

只是转化成stardict能读取的wav格式后才变成近3G的,如果stardict能直接读取mp3格式就没这个问题了

http://wiki.ubuntu.org.cn/stardict

另外:似乎 OtdRealPeopleTTS 是美语,WyabdcRealPeopleTTS是英式发音
头像
zshmail
帖子: 270
注册时间: 2006-07-03 9:12
送出感谢: 0
接收感谢: 0
联系:

#5

帖子 zshmail » 2008-04-30 17:10

现在已经全部压缩完,压缩包150MB,解压后264MB。总词汇为2.7万多。
头像
sammysun
帖子: 4088
注册时间: 2007-12-08 23:33
来自: SCUT-guangzhou
送出感谢: 0
接收感谢: 0

#6

帖子 sammysun » 2008-04-30 17:32

zshmail 写了:现在已经全部压缩完,压缩包150MB,解压后264MB。总词汇为2.7万多。

lz,可否提供迅雷,BT或者电驴下载,谢啦~~~
头像
cocomama
帖子: 869
注册时间: 2007-04-05 17:57
来自: 吉林──>海南──>大连──>延边──>北京──>德黑兰──>(x,y)
送出感谢: 0
接收感谢: 0
联系:

#7

帖子 cocomama » 2008-04-30 17:52

这个我们已经讨论过了,好像是有人已经发到ftp了吧?
我们那个时候的是14万的词汇,2.8G。
上次由 cocomama 在 2008-04-30 17:58,总共编辑 1 次。
沒有人成全我的今天
亦没有人阻挡我的明天
输掉一个现在
我要赢得一个未来!

如果输了今生那么我也不要来世!

坐而論道,不如起而行動!

海至尽头天是岸 山到高处人为峰!
头像
cocomama
帖子: 869
注册时间: 2007-04-05 17:57
来自: 吉林──>海南──>大连──>延边──>北京──>德黑兰──>(x,y)
送出感谢: 0
接收感谢: 0
联系:

#8

帖子 cocomama » 2008-04-30 17:56

http://ftp.ubuntu.org.cn/cenlonchen/
(用户名:ubuntu 密码:ubuntuftp)
说明:
1)源自verycd上的142000个单词597.9MB rar包;
verycd链接地址: http://lib.verycd.com/2006/05/21/0000103690.html
2)原包解压缩后是1.0GB,单词的发音wav结尾,但在Linux下检测出大部分是 mp3 文件,且大部分单词命名以大写字母开头,或单词命名带空格,经测试在Linux下的stardic中不能发音;
3)将全部单词文件批处理成wav文件,文件名全部改为小写字母;
3)删去原文件中重复的单词,留下140048单词 大小 2.8 GB;
4)小部分地名,如ahaggarmountains.wav,实际发音为ahaggar.wav,这种情况未作处理,请有心人完善之 .

参考网址:http://forum.ubuntu.org.cn/viewtopic.php?t=39366&highlight=PeopleTTS
沒有人成全我的今天
亦没有人阻挡我的明天
输掉一个现在
我要赢得一个未来!

如果输了今生那么我也不要来世!

坐而論道,不如起而行動!

海至尽头天是岸 山到高处人为峰!
头像
cocomama
帖子: 869
注册时间: 2007-04-05 17:57
来自: 吉林──>海南──>大连──>延边──>北京──>德黑兰──>(x,y)
送出感谢: 0
接收感谢: 0
联系:

#9

帖子 cocomama » 2008-04-30 17:59

论坛FTP调整了一回,现在地址变为:http://ftp.ubuntu.org.cn/home/cenlonchen/WyabdcRealPeopleTTS/
(用户名:ubuntu 密码:ubuntuftp)
沒有人成全我的今天
亦没有人阻挡我的明天
输掉一个现在
我要赢得一个未来!

如果输了今生那么我也不要来世!

坐而論道,不如起而行動!

海至尽头天是岸 山到高处人为峰!
头像
zshmail
帖子: 270
注册时间: 2006-07-03 9:12
送出感谢: 0
接收感谢: 0
联系:

#10

帖子 zshmail » 2008-04-30 18:45

cocomama 写了:http://ftp.ubuntu.org.cn/cenlonchen/
(用户名:ubuntu 密码:ubuntuftp)
说明:
1)源自verycd上的142000个单词597.9MB rar包;
verycd链接地址: http://lib.verycd.com/2006/05/21/0000103690.html
2)原包解压缩后是1.0GB,单词的发音wav结尾,但在Linux下检测出大部分是 mp3 文件,且大部分单词命名以大写字母开头,或单词命名带空格,经测试在Linux下的stardic中不能发音;
3)将全部单词文件批处理成wav文件,文件名全部改为小写字母;
3)删去原文件中重复的单词,留下140048单词 大小 2.8 GB;
4)小部分地名,如ahaggarmountains.wav,实际发音为ahaggar.wav,这种情况未作处理,请有心人完善之 .

参考网址:http://forum.ubuntu.org.cn/viewtopic.php?t=39366&highlight=PeopleTTS


行,把这个任务交给我了,不过第4条我就无能为力了!
头像
sammysun
帖子: 4088
注册时间: 2007-12-08 23:33
来自: SCUT-guangzhou
送出感谢: 0
接收感谢: 0

#11

帖子 sammysun » 2008-04-30 18:51

zshmail 写了:
cocomama 写了:http://ftp.ubuntu.org.cn/cenlonchen/
(用户名:ubuntu 密码:ubuntuftp)
说明:
1)源自verycd上的142000个单词597.9MB rar包;
verycd链接地址: http://lib.verycd.com/2006/05/21/0000103690.html
2)原包解压缩后是1.0GB,单词的发音wav结尾,但在Linux下检测出大部分是 mp3 文件,且大部分单词命名以大写字母开头,或单词命名带空格,经测试在Linux下的stardic中不能发音;
3)将全部单词文件批处理成wav文件,文件名全部改为小写字母;
3)删去原文件中重复的单词,留下140048单词 大小 2.8 GB;
4)小部分地名,如ahaggarmountains.wav,实际发音为ahaggar.wav,这种情况未作处理,请有心人完善之 .

参考网址:http://forum.ubuntu.org.cn/viewtopic.php?t=39366&highlight=PeopleTTS


行,把这个任务交给我了,不过第4条我就无能为力了!

刚才那个发布了吗,给个迅雷地址~
头像
zshmail
帖子: 270
注册时间: 2006-07-03 9:12
送出感谢: 0
接收感谢: 0
联系:

#12

帖子 zshmail » 2008-04-30 22:32

看来我是在做重复工作
http://ftp.ubuntu.org.cn/home/cenlonche ... PeopleTTS/
(用户名:ubuntu 密码:ubuntuftp)
这里的单词更多,各位可以去看看,不过有2.4G,解压后可能更惊人。
头像
zshmail
帖子: 270
注册时间: 2006-07-03 9:12
送出感谢: 0
接收感谢: 0
联系:

#13

帖子 zshmail » 2008-04-30 22:42

sammysun

不好意思,还没发布,找不到地方发布,等5月2日来做个BT种子,到时再来下载吧。
头像
cocomama
帖子: 869
注册时间: 2007-04-05 17:57
来自: 吉林──>海南──>大连──>延边──>北京──>德黑兰──>(x,y)
送出感谢: 0
接收感谢: 0
联系:

#14

帖子 cocomama » 2008-05-01 6:50

zshmail 写了:
cocomama 写了:http://ftp.ubuntu.org.cn/cenlonchen/
(用户名:ubuntu 密码:ubuntuftp)
说明:
1)源自verycd上的142000个单词597.9MB rar包;
verycd链接地址: http://lib.verycd.com/2006/05/21/0000103690.html
2)原包解压缩后是1.0GB,单词的发音wav结尾,但在Linux下检测出大部分是 mp3 文件,且大部分单词命名以大写字母开头,或单词命名带空格,经测试在Linux下的stardic中不能发音;
3)将全部单词文件批处理成wav文件,文件名全部改为小写字母;
3)删去原文件中重复的单词,留下140048单词 大小 2.8 GB;
4)小部分地名,如ahaggarmountains.wav,实际发音为ahaggar.wav,这种情况未作处理,请有心人完善之 .

参考网址:http://forum.ubuntu.org.cn/viewtopic.php?t=39366&highlight=PeopleTTS


行,把这个任务交给我了,不过第4条我就无能为力了!

你这个任务领的倒好,前3条都是出现的问题但已经解决了的(命名带空格好像也改了,没仔细找,反正基本上我用的时候单词都能发音),你就给领走了,还除了第4条, :lol:
沒有人成全我的今天
亦没有人阻挡我的明天
输掉一个现在
我要赢得一个未来!

如果输了今生那么我也不要来世!

坐而論道,不如起而行動!

海至尽头天是岸 山到高处人为峰!
头像
zshmail
帖子: 270
注册时间: 2006-07-03 9:12
送出感谢: 0
接收感谢: 0
联系:

#15

帖子 zshmail » 2008-05-01 13:53

cocomama 写了:
zshmail 写了:
cocomama 写了:http://ftp.ubuntu.org.cn/cenlonchen/
(用户名:ubuntu 密码:ubuntuftp)
说明:
1)源自verycd上的142000个单词597.9MB rar包;
verycd链接地址: http://lib.verycd.com/2006/05/21/0000103690.html
2)原包解压缩后是1.0GB,单词的发音wav结尾,但在Linux下检测出大部分是 mp3 文件,且大部分单词命名以大写字母开头,或单词命名带空格,经测试在Linux下的stardic中不能发音;
3)将全部单词文件批处理成wav文件,文件名全部改为小写字母;
3)删去原文件中重复的单词,留下140048单词 大小 2.8 GB;
4)小部分地名,如ahaggarmountains.wav,实际发音为ahaggar.wav,这种情况未作处理,请有心人完善之 .

参考网址:http://forum.ubuntu.org.cn/viewtopic.php?t=39366&highlight=PeopleTTS


行,把这个任务交给我了,不过第4条我就无能为力了!

你这个任务领的倒好,前3条都是出现的问题但已经解决了的(命名带空格好像也改了,没仔细找,反正基本上我用的时候单词都能发音),你就给领走了,还除了第4条, :lol:


不好意思,一开始没看仔细,不过第二条的问题还有些存在,即有些单词在stardict中不能发音。
回复

回到 “办公、图像、机械电子设计等”