FC2ブログ

APPENDIX

バカラッシュ

バカラッシュ

Jazz Guitar弾きです。
練習しながら忘れないように記録します。


« | 2019/09 | »
Sun Mon Tue Wed Thu Fri Sat
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 - - - - -

MONTHLY

CATEGORIES

RECENT ENTRIES

RECENT COMMENTS

RECENT TRACKBACKS

サウンドハウス ブログランキング・にほんブログ村へ
にほんブログ村
blogram投票ボタン

人気ブログランキングへ

捨てたものは要らないもの "MP3でどんな音が失われるのか"

AV Watchというサイトの"藤本健のDigital Audio Laboratory"という連載で
このところ話題になっている記事に、MP3圧縮で抜け落ちた成分の考察が有る。

第504回:MP3圧縮で、どんな音が失われるのか
第536回:MP3でどんな音が失われるのか【続編】

彼がやっている実験というのは、圧縮前と圧縮後の音源の差分を取って、
どんな音が、どの位抜け落ちているのかを提示したもの。
これは所謂符号化誤差と呼ばれ、符号化アルゴリズムの優劣の最も基本的な指標だ。

抜け落ちた音だけを聴いてみると、結構普通の音楽成分も入っていて、
”こんなに音楽情報が抜けてるなんて !?"
なんて反応が結構有ったんだよね。MP3ってヤバいんじゃねーのみたいな。

ただねぇ、MP3規格標準化当時の流れを見てきた側としては、(僕は映像側の参加だったけど)
もう少しMP3圧縮の中身を知ってもらいたいなぁと思った訳ですよ。

MP3以前の音声圧縮は、伝統的な波形符号化だったので、
結局、如何に少ない情報量で、同じ音声波形を再現できるかという手法だった。
だから、圧縮前後の差分が限りなく0に近づけるのが目標。(藤本さんと同じ測定だね。)
ところが、これには限界があって、あまり情報量が削減できないんだな。

そこでMP3は聴覚心理による知覚符号化を導入した。
これは、簡単にいうと、人間が聴こえない部分は大胆にカットして、
聴こえるところだけを対象にしようというもの。(他にも色々あるけどね。)

聴こえない部分って何かというと、大きい音の近くにある小さい音な訳だ。
例えば、1kHzの大音量が鳴ると、1.01kHzの小さな音は聴こえなくなる。
時間的にも、その前後の小さい音は聴こえない。
(面白いことに時間的に前の音も聴こえないんだな。)

20130211145715.jpg

じゃ、聴こえないなら、捨てちゃえ
というのがMP3なんだな。聴こえるところだけを重点的に符号化するから
効率が上がって、128kbpsなんて1/10の符号量でも、それなりの音質が達成できたんだ。
(192kbpsくらいから人間では聴き分けが難しくなると思う。)
つまり抜け落ちた音だけ聴くと、結構音楽情報が入っているんだけど、
これは脳が要らないとして捨てている成分が大部分なんだ。

ところが別の問題がでてきた。
知覚符号化になると、波形は崩れているのに人間にはちゃんと聴こえてしまう。
つまり、藤本さんがやっているような差分の大小じゃ、符号化の優劣が判らないんだ。
となると、評価は全て主観評価に頼らざるを得ない。

沢山人を集めて、さぁ、どの符号化アルゴリズムの音が良いと思いますか?
ってやらないと、どれが良い方式かが判らなくなってしまった。
主観評価は本当に難しいのに、毎回これじゃ開発側の手間が膨大すぎる。

結局、MP3の標準化は主観評価の代わりになる評価指標を見つけるのが大変で、
みんな苦労したんだね。だから、藤本さんの実験に対して、
差分がこんなに有ります!大変です!
みたいな反応があると、”いや、大変なのはそこじゃないんだよ”と思っちゃうんだな。

ここをちゃんと調べてみたいなら、当時の中心的メンバーだった
元アスキー、GCLの金子格さんの論文(第二章)が詳しい。

MPEG(MP3)の標準化の頃は技術的なイニシアチブは日本が取っていてんだけど、
標準化により、ノウハウが無くなってしまい結局日本の凋落を生んでしまった。
何でも安くなって、消費者としてはありがたい限りだけど、
あの当時の技術者達は、こんな日本は想像していなかった。

もし、MPEGをきちんと見てみたい人への解説本の決定版がコレです。

最新MPEG教科書 (ポイント図解式)最新MPEG教科書 (ポイント図解式)
(1994/07)
マルチメディア通信研究会

商品詳細を見る

筆者連はMPEGの標準化の中心的メンバーばかり。
良い本ですよ。

補足:
藤本さんの記事で、もう一つ問題にしていたインパルス応答の波形訛りは、
ま、帯域制限してるんだから、インパルスがsinc関数波形になって行くのは当たり前だし、
1000サンプル程度のズレは、MP3のDCTの窓関数幅が1000サンプル程度なんで、
そのために無音サンプルを付加してるだけだと思うんだけどね。どうだろ。
関連記事

私がKEF LS50を選んだ理由 "だって同軸なんだもん"«  | HOME |  »華氏451度で無くなるモノ

コメント

僕の元専門分野です。聴覚心理学。懐かしい響きですね。
mp3がクソ(音のこと)だと言い続けて久しいですが、僕はmp3のアルゴリズムは最高だと信じて疑いません。何せ、教科書に書かれている「これほんとかよ?」という信じがたいお話を、すべてほんとだー!と教えてくれますもの。経時マスキングなんて因果システムを考慮したらありえないだろ!と思うところですが、順向・逆向マスキングも実際に起こっていますからね。同時マスキングは直感的に納得しやすいですけれど。

僕の個人的な考えでは、「差分がこんなにあります!大変です!」ではなく、「差分がこんなにあってもこんな風です!すごいでしょう!」というのがmp3の面白さだと思います。

Bregmanの聴覚情景解析が大好きです。最近、僕好みの記事が多いですね。

>たてべさん
どもども。MPEGの動画圧縮アルゴリズムが、伝統的な波形符号化から逸脱できなかったのに較べて、
MP3系の音声圧縮アルゴリズムは面白いんですよね。
確かに、因果律を無視したような後方性マスキングなんか、脳はなにをやってるんだか、、
(アタックタイムをマイナスに設定したコンプですよ。)

何というか、評論家も含めてユーザ側の
"理論じゃないんだ、耳(感性)が大事だ。”という風潮がありますが、
後生大事にしているその耳は、何とも頼りなく、不確かなものだという
立ち位置を持っていないと、すぐオカルトになっちゃうと思うのです。

そうはいっても、第一感が正解だったりする小憎らしいのも”耳”ですが。

私は、歳とともに高い方が聴こえなくなっています。
高齢の評論家の方はどうしてるんでしょうか?
耳の劣化に依る帯域制限で折り返した成分を分離して
脳内で再合成してるんでしょうか。いやはやそれこそオカルトです。

たてべさん好みの記事を、書き続けて良いのでしょうか。うーむ。

コメントの投稿

管理者にだけ表示を許可する

トラックバック

https://bakarasche.blog.fc2.com/tb.php/273-e11e6e55

 | HOME | 

//-->
Powered by : Designed by ch*nu