소리란?
- 소리는 물체의 진동이 매질(공기, 물, 고체 등)을 통해 전달되며, 에너지가 이동하면서 발생합니다. 예를 들어, 목소리는 성대의 진동으로 공기 분자가 압축과 팽창을 반복하며 전달됩니다.
- 이때 소리는 파형(Waveform)으로 시각화할 수 있습니다. 이는 시간에 따른 공기압 변화를 나타내며, 주요 특성으로 주파수(Frequency)와 진폭(Amplitude)가 있습니다. 주파수는 음의 높이를, 진폭은 소리의 크기를 결정합니다.
- Y축은 진폭(Amplitude) , X축은 시간(Time) 입니다.
주기와 주파수의 개념 및 관계
- Period (주기): 주기는 반복적인 파동이나 진동에서 특정 지점에서 같은 상태가 다시 나타날 때까지 걸리는 시간을 의미합니다. 단위는 초(s)로 표현됩니다. 예를 들어, 진동이 1초에 한 번 발생한다면, 그 주기는 1초입니다.
- Frequency (주파수): 주파수는 1초 동안 얼마나 많은 주기가 반복되는지를 나타내며, 단위는 헤르츠(Hz)입니다. 예를 들어, 1초에 100번의 주기가 발생하는 경우, 그 주파수는 100Hz입니다. 주파수가 높을수록 음이 더 높게 들리고, 주파수가 낮을수록 음이 더 낮게 들립니다.
- Frequency와 Period의 관계:
- 여기서 f는 Frequency, T는 Period를 의미합니다.
- 사람의 가청 주파수 범위: 약 20Hz에서 20KHz까지 입니다.
- Pitch(음의 높낮이)는 초당 진동 수(주파수)에 의해 결정되며, 높은 주파수일수록 높은 음을 형성한다.
- Loudness(음량)는 진폭(Amplitude)과 관련이 있으며, 대체로 진폭이 클수록 소리 크기도 커진다.
Analog Digital Conversion(ADC)
- Analog Digital Conversion(ADC)은 아날로그 신호를 디지털 데이터로 변환하는 과정입니다. 오디오 데이터는 본래 연속적인 형태(아날로그)로 존재하지만, 이를 딥러닝이나 디지털 처리에 사용하려면 이산적인 데이터로 변환해야 합니다. 이 변환 과정은 샘플링(Sampling)과 양자화(Quantization)라는 두 단계로 이루어집니다.
오디오 데이터 변환 과정
- 샘플링(Sampling)
샘플링은 연속적인 아날로그 신호에서 일정 간격으로 데이터를 추출하는 과정입니다.- 샘플링 속도(Sample Rate): 초당 추출되는 샘플의 개수를 나타내며, 단위는 Hz입니다.
예를 들어, 44100Hz의 샘플링 속도는 1초에 44100개의 샘플을 추출한다는 뜻입니다. - 나이퀴스트 법칙(Nyquist Law): 신호를 원래대로 복원하려면 신호 내 최고 주파수의 2배 이상의 샘플링 속도로 데이터를 추출해야 합니다.
예를 들어, 사람의 가청 주파수 범위가 약 20Hz에서 20KHz이므로, 이를 정확히 기록하려면 최소 40KHz 이상의 샘플링 속도가 필요합니다.- 실제로는 오차와 업계 표준을 고려해 44.1KHz(44100Hz)가 많이 사용됩니다.
- 샘플링 속도(Sample Rate): 초당 추출되는 샘플의 개수를 나타내며, 단위는 Hz입니다.
- 양자화(Quantization)
양자화는 샘플링된 데이터를 연속 값에서 이산적인 값으로 근사하는 과정입니다.- 비트 깊이(Bit Depth): 양자화의 정밀도를 결정하며, 각 샘플을 몇 비트로 표현할지 정의합니다.
예를 들어, 16비트 양자화에서는 하나의 샘플이 2¹⁶(65536) 단계로 세분화됩니다. - 비트 깊이가 높을수록 더 세밀한 표현이 가능하지만, 데이터 크기가 커집니다.
- 비트 깊이(Bit Depth): 양자화의 정밀도를 결정하며, 각 샘플을 몇 비트로 표현할지 정의합니다.
- PCM 인코딩
양자화된 데이터는 PCM(Pulse Code Modulation) 방식으로 0과 1의 이진수 비트로 변환됩니다.- PCM Word: 여러 개의 비트가 모여 하나의 샘플을 표현하며, 이를 PCM Word라 합니다.
예를 들어, 16비트 양자화된 오디오는 16비트 크기의 PCM Word를 사용합니다.
- PCM Word: 여러 개의 비트가 모여 하나의 샘플을 표현하며, 이를 PCM Word라 합니다.
오디오 데이터 변환의 중요성
ADC는 아날로그 신호를 디지털화하여 다양한 디지털 장치와 애플리케이션에서 활용할 수 있게 합니다. 음악, 음성 인식, 딥러닝 모델 입력 등 다양한 분야에서 필수적인 단계이며, 샘플링 속도와 비트 깊이는 변환된 데이터의 품질을 결정하는 핵심 요소입니다.
참고자료