[Audio & Speech Fundamentals] 5

[202002]A Framework for the Robust Evaluation of Sound Event Detection

Author: Cagdas Bilen, Giacomo Ferroni, Faancesco Tuveri, Juan Azcarreta and Sacha Krstulovic | Arxivhttps://arxiv.org/abs/1910.08440  요약기존의 SED를 평가하는 방식에는 (1) OP 의존성 문제, (2) sound event 정의에 대한 주관성 문제, (3) CT를 고려하지 못하고 있다는 문제 등이 있었다. 그렇기 때문에 단순히 F1-score만을 사용하여 평가하기에는 적절하지 못했고, 이러한 문제를 해결하기 위해 DTC/GTC라는 개념을 활용해 FP/TP를 새롭게 정의하고, 이 과정에서 만들어지는 ROC Curve를 PSD-ROC Curve, 이의 AUC 계산값을 PSDS라고 정의하며 새로운 평가..

Audio & Speech 기본 개념

새로운 거 배울 때마다 그때그때 정리할 예정 Power에너지의 시간에 따른 변화율을 나타낸다. 일반적인 물리에서 사용하는 Power(전력) 개념과 같다. 단위는 W(Watt)이다.물리에서 일반적인 계산은 간단히 P = W/t로 하지만, 음파는 파동이기 때문에(즉 시간에 따라 에너지가 지속적으로 변하기 때문에) Amplitude의 제곱 평균으로 표현한다. 즉,으로 구하고,여기서 제곱을 사용하는 이유는, 음파는 진폭이 양수와 음수로 변동하므로 평균을 구하면 0이 될 가능성이 있기 때문이다. Decibel(dB)신호 크기(Amplitude 또는 Power)나 에너지 비율을 로그 스케일로 표현하는 단위이다.단위 자체는 비율을 나타내므로 절대적인 값을 갖지 않으며, 두 값의 비율을 비교하기 위해 사용된다. dB는..

자주 쓰이는 Acoustic feature와 추출 방법

오늘은 대중적으로 쓰이는 acoustic feature들에 대해 정리해 보려 한다.간단한 것들은 새로 배울 때마다 그때그때 내용을 추가할 예정이다.librosa : 대표적으로 사용하는 auduio domain 라이브러리이다. MFCC/Mel Spectrogram 등을 추출할 때 사용하며 이외에도 여러 피처를 추출할 때 자주 쓰인다.(Document) https://librosa.org/doc/latest/index.htmlopensmile : pitch, energy, formant 등을 추출할 수 있는 기능을 제공한다. (이러한 피처들이 감정 분석에 중요한 요소라고 한다)(Document) https://audeering.github.io/opensmile/parselmouth : Praat softw..

MFCC(Mel Frequency Cepstral Coefficient) 간단 정리

0. 참고 자료 멜 스펙트로그램(Mel Spectrogram) 간단 정리참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이dohyeon-ai.tistory.com(위 글을 읽고 오시면 이해가 수월해집니다.)  Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What’s In-BetweenUnderstanding and computing ..

멜 스펙트로그램(Mel Spectrogram) 간단 정리

참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이 찾아서 하고 있는 중이다.요즘에는 크게 1) 머릿속 내부 발화(Inner Speech)의 Voice Reconstruction 연구, 2) 통화 데이터 기반 실시간 인공지능 거짓말(보이스피싱) 탐지기 개발 이렇게 두 가지의 프로젝트를 하는데, 이 두 프로젝트 모두 공통적으로 음성 데이터에서 어떻게 유의미한 feature를 뽑아낼 것인지에 대한 고민이 필요하다. 이러한 좋은 feature를 뽑아낼 수 있는 대표적인 방법..