非可逆音声圧縮
非可逆音声圧縮
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/04 16:58 UTC 版)
非可逆音声圧縮は、様々な場面で使われている。MP3プレイヤーやコンピュータのような直接的な利用だけでなく、DVDビデオでの音声圧縮、デジタルテレビでの音声圧縮、インターネット上のストリーミングメディア、衛星ラジオやケーブルラジオなどで使われている。非可逆圧縮は重要でないデータを捨てているため、可逆圧縮よりも遥かに圧縮率が高い(オリジナルの5%から20%)。 非可逆音声圧縮の開発には知覚心理学の一部である音響心理学の成果が応用されているため知覚符号化の名称で呼ばれる。人間の聴覚は全ての音声データを認識しているわけではない。多くの非可逆圧縮ではまず、知覚されないと思われる音、すなわち人間の耳には聞こえにくい音を識別し、知覚的冗長性を減らす。典型例としては、高周波数成分や大きな音と同時に鳴っている小さな音などである。それらの音は正確度を減じて符号化されるか、全く符号化されない。 このような聞こえない音の除去はビット数削減効果はそれほど大きくない。非可逆圧縮での圧縮の大部分はそれとは相補的なノイズシェーピングという現象によるものである。信号を符号化するビット数を減らすと、S/Nが悪化する。音響心理学に基づいた非可逆圧縮では、このような増大したノイズを知覚されないように「隠す」技法が重要である。これは例えば、高周波数成分に割り当てるビット数を削減することでなされる。そのようにするのは、元の情報に高周波数成分が少ないからではなく、人間の耳が低い周波数しか知覚できないからである。それによってノイズが隠蔽され、知覚されなくなる。 知覚モデルに基づく冗長性削減でも十分な圧縮率が得られない場合、さらなる非可逆圧縮が必要となる。音源によっては、そうしても音質の低下を感じないこともある。例えば、人間の話し声は音楽よりも圧縮可能である。非可逆圧縮の多くはデータレートを調整・設定可能であり、例えばビット毎秒で表現する。さらなる圧縮においても人間の聴覚モデルに基づいて、音の重要性を判断して圧縮していく。実際の聴覚モデルは様々で、それぞれ特定の用途に特化している。
※この「非可逆音声圧縮」の解説は、「音声圧縮」の解説の一部です。
「非可逆音声圧縮」を含む「音声圧縮」の記事については、「音声圧縮」の概要を参照ください。
- 非可逆音声圧縮のページへのリンク