[Audio & Speech Fundamentals]

Audio & Speech 기본 개념

do.hyeon 2025. 1. 3. 17:07

새로운 거 배울 때마다 그때그때 정리할 예정

 

Power

에너지의 시간에 따른 변화율을 나타낸다. 일반적인 물리에서 사용하는 Power(전력) 개념과 같다. 단위는 W(Watt)이다.

물리에서 일반적인 계산은 간단히 P = W/t로 하지만, 음파는 파동이기 때문에(즉 시간에 따라 에너지가 지속적으로 변하기 때문에) Amplitude의 제곱 평균으로 표현한다. 즉,

T = 시간, A(t) = 시간에 따른 신호 진폭

으로 구하고,

여기서 제곱을 사용하는 이유는, 음파는 진폭이 양수와 음수로 변동하므로 평균을 구하면 0이 될 가능성이 있기 때문이다.

 

Decibel(dB)

신호 크기(Amplitude 또는 Power)나 에너지 비율을 로그 스케일로 표현하는 단위이다.

단위 자체는 비율을 나타내므로 절대적인 값을 갖지 않으며, 두 값의 비율을 비교하기 위해 사용된다.

 

dB는 대표적으로 Power 기반, Amplitude 기반으로 표현될 수 있다.

(1) Power 기반 표현

- P0은 기준 Power, P1은 측정된 Power

 

(2) Amplitude 기반 표현

Power과 달리 20을 곱하는 이유는, Power과 Amplitude의 관계를 생각해 보면 이해가 된다.

위에서 언급한 공식에 따라 PA에 비례하고, 이를 토대로 Power 기반 표현에서 A 제곱 값을 대입해 보면 로그의 진수에 제곱이 붙는다. 로그의 성질에 의해 제곱 값(=2)를 상수에 곱해줄 수 있으므로, (2)와 같은 식이 유도될 수 있다.

 

Level

신호의 크기나 Power를 특정 기준과 비교하여 상대적으로 표현하는 값이다.

가장 많이 쓰이는 level 표현이 decibel level인데,  decibel을 설명할 때 구한 L값이 바로 decibel level이다.

Sound pressure level, Voltage level도 있긴 한데 마찬가지로 기준 값과 측정 값의 로그 배수를 계산하면 된다.

 

Spectrogram

https://dohyeon-ai.tistory.com/2

 

멜 스펙트로그램(Mel Spectrogram) 간단 정리

참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이

dohyeon-ai.tistory.com