Contents
「とりあえず 48kHz / 24bit で録っておけばいいでしょ?」
もしあなたがそう思っているなら、半分正解で、半分は「デジタルの罠」にハマっています。
我々が生きている世界は「アナログ(連続した波)」であり、究極のハイレゾ音源とはアナログ録音(テープレコーダー)のことを指します。
しかし、PCやDAWが扱えるのは「デジタル(0と1の点)」だけですよね。
この2つの世界を橋渡しするのが、ADコンバーター(A/D変換)の役割、つまり、A(アナログから)D(デジタルへ)C(コンバート)する。
ADCと表記されたりします。
今日は、スペックシートの数字遊びではない、「音の解像度」の話をしていきましょう。
なぜ、一流のスタジオは容量の無駄と思える「96kHz」や「192kHz」を使うのか?
人間の耳は20kHzまでしか聞こえないのに、なぜそれ以上の帯域を録る必要があるのか?
その答えは、「聞こえない音」にあるのではなく、「フィルターの形」にあります。
今回は、デジタル録音の最大の敵「エイリアシングノイズ(折り返し雑音)」と、それを防ぐための設定について、徹底解説していきます。
最後の部分ではあまり語られることのないアナログテープを例として、デジタル音質とアナログ音質を俯瞰的につかめるように解説していますので、最後までお付き合いください。
アナログを「みじん切り」にする:AD変換の基礎
このラインより上のエリアが無料で表示されます。
音声をデジタル化する作業は、「方眼紙に波形のグラフを描く」ことに似ています。
- 縦軸(音の大きさ): ビット深度(Bit Depth)
- 横軸(時間): サンプリングレート(Sampling Rate)
この方眼紙のマス目が細かければ細かいほど、元の波形(アナログ)を忠実に再現できるというわけです。
逆にマス目が粗いと、波形はカクカクになり、元の音とは似ても似つかない「デジタル臭い音」になっていきます。
【縦軸】ビット深度(Bit Depth)
ビット深度とは、「音の大きさ(ダイナミックレンジ)を何段階で刻むか」という指標になります。
- 16bit(CD): 65,536段階。ダイナミックレンジ 96dB。
- 24bit(ハイレゾ): 16,777,216段階。ダイナミックレンジ 144dB。
「16bitでも十分細かいじゃん」と思うかもしれません。
実際、久しぶりにCDを聴いてみると、「あれ?CDって結構高音質なんじゃない?」と感じませんか?
それは普段、低音質なSpotifyなどを聴いているからかもしれません。
重要なのは「一番大きな音」ではなく、「一番小さな音(消え入るような余韻)」にあります。
24bitで録音するということは、S/N比の底(ノイズフロア)を遥か下に押し下げることを意味しているわけです。
これにより、リバーブの消え際や、ホールの空気感といった「微細な情報」が、デジタルのノイズ(量子化ノイズ)に埋もれずに記録される。
結論: プロの録音で16bitを使う理由はゼロ、プロの現場で16bitを選択する人は世界中どこを探してもいないです。必ず「24bit」以上を選ぶこと。
(※Zoom F3などの「32bit float」は、さらにこの概念を超越した規格だが、基本は24bitの延長線上にある)
ここで先に進む前に一つ、耳を疑うような規格を紹介しておきましょう。
ハイレゾ界の異端児、「DSD(Direct Stream Digital)」の存在を忘れてはいけません。
この規格のビット深度は、なんとたったの**「1bit」。
「えっ? ファミコン(8bit)より低いじゃん!」と思っただろうか?
違う。
DSDは考え方が根本から違う。
PCM(WAVなど)が「音の階段を細かく積み上げる(縦軸)」のに対し、DSDは「音の密度を猛烈なスピードで並べる(横軸)」という方式をとります。
そのサンプリングレートは、驚異の 2.8MHz(2,800kHz) 以上。
CD(44.1kHz)の64倍という異次元の速さで「0と1」を連射することで、階段の段差そのものを無くし、限りなく「アナログの波形そのもの」を描き出す技術になるわけです。
24bitが「精密なデジタル写真」なら、1bit DSDは「流れる銀塩フィルム」のようなもの。
この「1bit」がなぜオーディオマニアを狂わせるのか? なぜ「究極のアナログ音」と呼ばれるのか?
その深淵なる世界については、次回の記事で徹底特集します。
【横軸】サンプリングレート(Sampling Rate)
サンプリングレートとは、「1秒間に何回、音を切り取る(サンプリングする)か」という指標だ。
単位はHz。
- 44.1kHz: 1秒間に44,100回切り取る(CD規格)。
- 48kHz: 1秒間に48,000回切り取る(映像業界の標準)。
- 96kHz / 192kHz: ハイレゾリューション。
ここには「ナイキストの定理」という絶対的な物理法則があります。
「録音したい周波数の、2倍のサンプリングレートが必要である」
人間の耳は 20kHz(20,000Hz) まで聞こえる。
だから、その2倍の 40kHz以上 のサンプリングレートがあれば、理屈上は人間の聞こえる音をすべて記録できる。
これがCD(44.1kHz)の根拠になっています。
「じゃあ44.1kHzや48kHzで十分じゃないか。96kHzなんて容量の無駄だ」
そう思うだろうか? ここからがプロの領域。
デジタルの天敵「エイリアシングノイズ」とは?
もし、サンプリングレートの限界(ナイキスト周波数)を超える「高い音」が入ってきたらどうなるか?
デジタルはそれを記録できない……
だけなら良いのですが、恐ろしいことに「別の低い音(ノイズ)」として記録してしまう。
これを「エイリアシングノイズ(折り返し雑音)」と呼びます。
【イメージ:車のホイール】
高速道路で隣の車のホイールを見ると、「逆回転」してゆっくり回っているように見えたことはないでしょうか?
あれと同じ現象なんです。
「速すぎて捉えきれない高周波」が、「変な低周波」として化けて出てきてしまう。
このノイズは、元の音楽とは全く関係のない「不快な金属的な響き」や「濁り」として音を汚すわけです。
これがデジタル録音の最大の敵となります。
なぜ96kHzはバランスが良いのか?
このエイリアシングを防ぐために、ADコンバーターの入り口には「ローパスフィルター(アンチエイリアシング・フィルター)」が入っている。
限界を超える高音を、入り口でバッサリ切り落とすためだ。
ここに、48kHz録音と96kHz録音の「決定的な音質の差」が生まれるわけです。
- 48kHz録音の場合:
記録できるのは24kHzまで。人間の可聴域(20kHz)ギリギリ。
つまり、20kHzまでは通して、24kHz以上は完全に消さなきゃいけない。
フィルターは「断崖絶壁のような急カーブ(急ブレーキ)」になる。
この急激なフィルターは、副作用として「位相の乱れ」や「リンギング(音の滲み)」を引き起こし、音の立ち上がり(トランジェント)を鈍らせる。 - 96kHz録音の場合:
記録できるのは48kHzまで。人間の可聴域(20kHz)からは遥かに余裕がある。
フィルターは、はるか遠くの帯域から、「なだらかなカーブ(緩やかなブレーキ)」でかければ済む。
結果、位相の乱れが少なく、音の立ち上がりが鋭く、自然なまま記録される。
96kHzで録音するのは、決して「超音波を録るため」ではないのです。
「可聴域(人間に聞こえる範囲)の音を、フィルターの副作用なしに、綺麗に録るため」にあります。
理想的な設定は?
では、明日からの録音設定はどうすべきか?
- 基本設定:48kHz / 24bit
- YouTubeや映像制作が目的ならこれで十分。現代のADコンバーターは優秀なので、48kHzでもかなり綺麗。
- ここぞという本気設定:96kHz / 24bit
- X-86S(私の作ったマイク)のような「高速・高解像度マイク」の性能を100%引き出したい時。
ただし、96kHzはデータ容量が2倍になり、PCへの負荷も増えます。
「なんでもかんでも最高設定」ではなく、「鮮度を保ちたい刺身(アコースティック音源)には96kHz」という使い分けこそが、スマート。
実際48khzと96khzの壁かなり分厚いです。
192khzはコントロールが難しくなってきますし、192khzを超えると、人間の耳ではあまり違いがわからなかったりします。
なので、基本的には次回紹介するDSDレコーディング以外の場合は、マスター音源として96khzの24bitを基本軸とすることを推奨しています。
まとめ:アナログだって同じ
- ビット深度(縦軸): 24bit一択。 静寂を描くための必須条件。
- サンプリングレート(横軸): 48kHzが標準だが、96kHzの真価は「フィルターの優しさ」にある。
- エイリアシング(折り返し): デジタルの敵。これを防ぐためにハイレゾがある。
さて、最後にアナログテープの知識も少し触れておきましょうか。
デジタルオーディオの「サンプリングレート」と「ビット深度」。
これらは目に見えない数字ですが、アナログの「オープンリールテープ」に置き換えると、その意味が手に取るようにわかります。
サンプリングレートとは = 「テープスピード(回転数)」
—— 速ければ速いほど、高音が伸び、キメが細かくなります。
サンプリングレート(横軸・時間)は、テープがヘッドを通過する「速度」そのものです。
これはイメージしやすいようにたとえた数値にはなりますが
- 44.1kHz / 48kHz = 19cm/s(7.5ips):
- 民生用や放送用の標準速度。
- 十分良い音ですが、高域の伸びには限界があります。
- 96kHz = 38cm/s(15ips / サンパチ):
- プロのスタジオ標準。
- 高域が伸びやかになり、音の立ち上がりがスムーズになります。
- 192kHz = 76cm/s(30ips / ナナロク):
- ハイエンド・マスタリング用。
- 圧倒的な解像度。ただし、テープ(HDD容量)を猛烈な勢いで消費します。
テープスピードが速いと、1秒間に使える磁性体(記録粒子)の面積が「横に」増えます。
同様に、サンプリングレートが高いと、1秒間に記録するポイントが増えます。
どちらも「時間の解像度」を上げているのです。
またbitも例えられるんです・・・
ビット深度とは、 = 「トラック幅(2トラ vs 4トラ)」
—— 道幅が広ければ、ノイズは相対的に消える
ビット深度(縦軸・音量)は、テープの「トラックの太さ(幅)」です。
同じ6mm幅(1/4インチ)のテープを使う場合で考えてみましょう。
- 16bit = 4トラック(4トラ):
- 細いテープの中に、無理やり4本の線を詰め込んだ状態。
- 1本あたりの線(トラック)は細くなります。
- 結果: 記録できるエネルギーが小さいため、テープ特有の「サーッ」というヒスノイズ(ノイズフロア)が目立ってしまいます。
- 24bit = 2トラック(2トラ38):
- テープの幅を贅沢に使い、太い2本の線だけで記録する状態。
- 1本あたりの線(トラック)は倍の太さがあります。
- 結果: 圧倒的な磁気エネルギーで記録できるため、信号(S)が巨大になり、ヒスノイズ(N)は遥か下に追いやられます。
トラック幅が広いと、より多くの磁束(パワー)を受け止められるため、「ダイナミックレンジ(S/N比)」が広がります。
同様に、ビット深度が高い(24bit)と、記録できる音量の段階が増え、「ノイズフロア」が下がります。
どちらも「器の深さ(許容量)」の話をしているのです。
この例えを使うと、プロが目指す最高音質(ハイレゾ)とは、以下のような状態だと言えます。
「ナナロクのニトラ(76cm/s・2トラック)」
- 猛烈なスピードでテープを回し(192kHz)、
- テープ幅を贅沢に使って太く録る(24bit / 32bit)。
こう考えると、「なぜ容量の無駄と思えるようなハイスペックで録音するのか?」という問いへの答えが明確になります。
これ以上の説明はないでしょう。
アナログとデジタルの比較体験はYoutubeコンテンツがありますので、ぜひ一度体験してみてはいかがでしょうか?