对 mp3 乱码问题的分析和解决(thythombox)

Totem,mplayer,sopcast,realplayer,bmp
回复
头像
Crazier
帖子: 1051
注册时间: 2007-09-23 17:06
联系:

对 mp3 乱码问题的分析和解决(thythombox)

#1

帖子 Crazier » 2008-01-14 15:20

对 mp3 乱码问题的分析和解决
引自:http://www.osxcn.com/ubuntu/mp3-tag-encoding.html

最近尝试 Listen 和 Banshee 才发现,Rhythmbox 上出现的 mp3 乱码问题依旧,而且更加严重,想要彻底弄清和解决必须搞清两点,第一, mp3 标签类型和编码,第二,各种播放器对 mp3 标签读取情况,相信它们应该都有相关的开发文档来说明,但我还是用了一个最笨的方法,就是一个一个的测试来得出结论,真理不是来自于实践吗?

1、了解 mp3 标签类型和使用的编码

首先说 mp3 标签类型和编码,大家应该知道目前主要存在这几种标准,ID3v1, ID3v2 2.3, ID3v2 2.4, APEv2,ID3v1 只支持 ISO-8859-1 编码 (编码集参考),严格的说它是不支持中文的 (并不代表它不能储存中文信息,目前中文 mp3 的 ID3v1 标签都使用这个字段来储存 GBK/GB18030 编码的中文信息),而第二版 (ID3v2) 支持的格式增加了 utf-16,直到 2.4 版才开始支持 uft-8,但 ID3v2 标准没有统一标签内容的编码,例如 2.4 版的 ID3v2 你可以使用 ISO-8859-1 编码,也可以使用 utf-16/uft-8 这种 Unicode 编码格式。做得最好的是 APEv2,它不但有很好的扩展性,而且还把编码格式统一为 utf-8,这样一来只要支持 APEv2 读取的播放器播放带有 APEv2 标签的 mp3 就不会存在乱码问题。

2、了解各种播放器对 mp3 标签读取情况

接下来研究的就是各种播放器对这几种标准的标签支持程度,测试的播放器有:gnome 自带的 Rhythmbox 0.10.0, Listen 0.5, Banshee 0.12.1+dfsg-3, Quod Libet 0.24, Exaile! 0.2.8, GMPC 0.13.0, Audacious 1.2.2。

测试的方法很简单,用一个 mp3 文件,分别写入不同类型的标签 (排列组合下来共 20 多种),在 ID3v1 和 ID3v2 2.3/2.4 中分别使用不同的编码写入中文信息 (如 GBK 编码),然后用这些播放器去读取,得到其结果。从这次的测试结果来看,Rhythmbox 对各种 mp3 的标签支持最好,这主要归功于它支持 APEv2 标签的读取。而 Banshee 和剩下的播放器完全一样,都不支持 APEv2 的读取,这个就能很好的解释为什么一些 mp3 在 Rhythmbox 上正常,在其他播放器上就会乱码。原因是现在很多 mp3 为了兼容,都同时使用了 ID3v1 和 APEv2 标签,Rhythmbox 读取 ID3v1 一样会乱码,但它优先读取了 APEv2 标签,而 Banshee 这些播放器不支持 APEv2 就只能读取 ID3v1,当然会乱码了。

他们的共同特点就是,所依赖的 libid3tag 库完全按照 ID3 标准来读取标签内容。不管使用何种标准的标签,只要是读取以 Unicode 编码的中文内容,肯定没有问题,遇到 GBK/GB18030 编码的中文内容时,还是把它当成 ISO-8859-1 编码来读取,不乱才怪。

ps: Vista 上的 WMP 不支持 ID3v2 2.4 和 APEv2 标签的读取,但它很聪明不能读取就用文件名代替,千千静听支持全系列标签的读取,但不支持以 ID3v2 2.4 标准的写入,不知道即将发布的 5.0 有变化没有。foobar2000 v0.9.4.3 支持全系列标签的读取,默认使用 ID3v2 2.4 (utf-8) 写入,不愧被誉为经典。

3、解决办法

既然明白了乱码的原因,就得找解决办法,一种办法就像 Win 上的播放器一样,可以根据本地的编码方式来解码,或使用一些其他转码机制,要不还可以选择优先读取顺序。以上测试的播放器中除了 Audacious 外其他都不支自定义编码读取功能。另外一个解决办法就是把 mp3 标签转换为 Unicode 编码,这种方式既简单又支持标准,推荐大家使用。如果像 Banshee 一样支持显示文件路径也可以解决乱码问题,但这不是根本之道。

目前发现有 2 个工具可以把标签转换为 Unicode 编码,而且都支持批量转换。

1) 一个是周枫用 java 编写的 ID3iconv 0.2.1,最后更新时间为 2004/2/20。

使用方法:
java -jar ~/id3iconv-0.2.1.jar -e gbk *.mp3

如果想转换当前目录下的所有 mp3 (包括子目录):
find . -iname "*.mp3" -execdir java -jar ~/id3iconv-0.2.1.jar -e gbk {} \;

* 注意以上 ~/id3iconv-0.2.1.jar 位置根据自己情况而定
* 相信现在大陆绝大多数能找到的 mp3 标签都是以 GBK/GB18030 编码,使用 -e gbk 来处理就够了,当然你也可以使用 -e gb18030 来处理。
* -e gbk 参数是代表把 GBK 编码的标签转换为 Unicode 编码,本身是 Unicode 编码的就不转换。如果需要转换其他编码的文件可以自行修改,如改为 Big5。
* 经测试,转换后为 2.3 版的 ID3v2,编码格式为 uft-16

2) 另外一个是用 Python 写的 “Mutagen”,目前最新版本 1.11,Ubuntu 7.04 源里也带有 1.10 版本的 Mutagen,可以用这个命令来安装:
sudo apt-get install python-mutagen

ps:安装 Quod Libet 和 Listen 都必须这个

使用方法:
mid3iconv -e gbk *.mp3

如果想转换当前目录下的所有 mp3 (包括子目录):
find . -iname "*.mp3" -execdir mid3iconv -e gbk {} \;

* 相信现在大陆绝大多数能找到的 mp3 标签都是以 GBK/GB18030 编码,使用 -e gbk 来处理就够了,当然你也可以使用 -e gb18030 来处理。
* -e gbk 参数是代表把 GBK 编码的标签转换为 Unicode 编码,本身是 Unicode 编码的就不转换。如果需要转换其他编码的文件可以自行修改,如改为 Big5。
* 经测试,转换后为 2.4 版的 ID3v2,编码格式为 uft-16
* 不过它会同时用 Unicode 编码填满 D3v1, ID3v2, APEv2 标签,但是 ID3v1 又不支持中文的 Unicode 编码,所以转换后的 ID3v1 标签全是问号。所以最好加上 –remove-v1 参数,转换后删除 ID3v1 标签。
mid3iconv -e gbk --remove-v1 *.mp3
Joshua_Zhan
帖子: 155
注册时间: 2008-01-04 20:57

#2

帖子 Joshua_Zhan » 2008-01-25 9:02

困扰了我好久的问题,谢谢了,我马上试试
头像
eexpress
帖子: 58428
注册时间: 2005-08-14 21:55
来自: 长沙

#3

帖子 eexpress » 2008-01-25 9:12

论坛,wiki都有的东西哦。
● 鸣学
头像
bwchaos
帖子: 416
注册时间: 2006-10-19 14:08
来自: 西夏

#4

帖子 bwchaos » 2008-01-26 15:11

还有人在研究这个啊
littleUbuntu
帖子: 1103
注册时间: 2006-10-19 9:02

#5

帖子 littleUbuntu » 2008-01-28 9:14

好,刚好用到,多谢
livizy
帖子: 109
注册时间: 2007-10-02 23:53

收藏

#6

帖子 livizy » 2008-02-13 10:40

收藏
nowhere
帖子: 31
注册时间: 2007-05-23 0:57

谢谢

#7

帖子 nowhere » 2008-02-22 23:28

真是简单又好用。。多谢。。
10moons
帖子: 1
注册时间: 2008-02-26 8:33

我用的一个脚本

#8

帖子 10moons » 2008-02-26 8:35

我用的一个脚本:

代码: 全选

#!/bin/sh
find . -iname "*.mp3" -execdir mid3iconv --remove-v1 -e gbk {} \;
find . -iname "*.mp3" -execdir mid3v2 -s -C {} \;
新增加了一行
find . -iname "*.mp3" -execdir mid3v2 -s -C {} \;
转换一下,生成完全的 ID3v2.4. 这样使用Audacious时才不会乱码
flying.space
帖子: 9
注册时间: 2007-12-03 22:49

#9

帖子 flying.space » 2008-03-01 11:31

原来想忍忍算了,不过乱码真的好讨厌。
我在用第二个方法转换中
谢啦,收藏了
copdips
帖子: 58
注册时间: 2006-03-19 21:43

#10

帖子 copdips » 2008-03-04 16:58

谢谢 用了楼主的方法, 全部更新了, 爽, 把病根除了 :p
头像
内存不足
论坛版主
帖子: 3277
注册时间: 2005-08-18 18:43
联系:

#11

帖子 内存不足 » 2008-03-04 17:02

quodlibet只要在配置文件的 id3 行后加上 gbk 基本上中文标签都搞定 很少看到乱码,不用转换的。
而且quodlibet有个插件是 APEv2 to ID3v2
໌→ iCookie Gtk Theme
໌→DropPlusBluetheme
กรัก กรัก`菠萝
头像
yang_hui1986527
帖子: 911
注册时间: 2006-03-04 23:10
来自: 江西高安
联系:

#12

帖子 yang_hui1986527 » 2008-03-04 17:37

我采用的是第二种方法。
楼主研究得还满详细的,精神可嘉!
微信:sn0wdr1am86
QQ: 3217680847
QQ 群:82695646
网站:https://www.itcoder.tech/
网站:http://www.snowdream.tech/
weaker
帖子: 50
注册时间: 2007-05-06 21:34

#13

帖子 weaker » 2008-03-06 17:45

不知道能否也转换wma的?
头像
ichaochao
帖子: 260
注册时间: 2008-03-17 21:37
来自: 深圳

#14

帖子 ichaochao » 2008-03-25 19:36

真的可以了耶 ,真是太强了,谢谢呀!!
回复