[Audio & Speech Fundamentals]

MFCC(Mel Frequency Cepstral Coefficient) 간단 정리

do.hyeon 2024. 5. 7. 17:05

0. 참고 자료

 

멜 스펙트로그램(Mel Spectrogram) 간단 정리

참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이

dohyeon-ai.tistory.com

(위 글을 읽고 오시면 이해가 수월해집니다.)

 

 

Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What’s In-Between

Understanding and computing filter banks and MFCCs and a discussion on why are filter banks becoming increasingly popular.

haythamfayek.com

 

(MFCC 관련 논문) Lindasalwa Muda, Mumtaj Begam and I. Elamvazuthi, Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques, Arxiv, 2010

https://arxiv.org/pdf/1003.4083

 

1. Introduction

지난 글에서는 Mel-scale, Spectrogram, Mel-Spectrogram 등에 대해서 알아보았다.

멜 스펙트로그램만큼 음성 데이터 처리에 많이 쓰이는 기법이 MFCC인데, 오늘은 이 MFCC에 대하여 알아보고자 한다.

 

2. MFCC(Mel Frequency Cepstral Coefficiency) 개요

먼저 MFCC라는 명칭을 하나하나 쪼개 보자.

 

- Mel : 음악 및 음성 처리 분야에서 주파수를 표현하는 단위로, 인간의 청각 시스템은 주파수를 선형적으로 인식하지 않고, 주파수에 대한 인지가 낮은 부분(고주파)에서는 더 많은 주파수 변화를 필요로 한다고 설명했었다. 이를 Mel-scale 단위로 표현한다.

- Frequency : 소리의 높낮이를 나타낸다. 음성 신호의 주파수는 소리의 파동이 몇 번 진동하는지를 나타낸다.

- Cepstral : 주파수의 로그 스펙트럼을 취한 후 역푸리에 변환을 한 것이다. Cepstral은 주파수 성분과 파형 성분으로 분해하여 주파수가 아닌 음성의 특징을 더 잘 표현할 수 있도록 한다.

- Coefficiency : Cepstral 변환 결과에서 선택된 상위 계수들을 의미한다. (MFCC에서는 일반적으로 주파수 영역에서 중요한 정보를 포착하는 몇 가지 계수를 선택한다.)

 

따라서 MFCC는 주파수를 Mel 스케일로 변환하고, Cepstral 분석을 통해 음성의 특징을 추출한 후, 그 중 일부 계수를 선택하여 음성 신호를 효율적으로 표현하는 방법이다. 음성 인식, 화자 인식, 음성 합성 등 다양한 음성 처리 응용 프로그램에서 사용된다.

 

3. MFCC vs Mel Spectrogram

 

 

4. MFCC의 원리

 

--- 2024.05.07 ---

다른 글 먼저 올리고 나중에 내용 추가 예정.

 

5. 구현

 

 

6. 정리하며