[Sound Domain Technology] 4

[NIPS 2024] Neural Analysis and Synthesis: Reconstruction Speech from Self-Supervised Representations

(Reference) Hyeong-Seok, Choi., Juheon, Lee., Wan-Soo, Kim., Jie, Hwan, Lee., Hoon, Heo., Kyogu, Lee. (2021). Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations.. arXiv: Soundhttps://proceedings.neurips.cc/paper_files/paper/2021/file/87682805257e619d49b8e0dfdc14affa-Paper.pdf  이 논문에서는 neural analysis and synthesis(NANSY)라는, 사람 음성 신호의 voice, pitch, speed을 조절..

Audio data에서 자주 쓰이는 feature와 추출 방법

오늘은 audio data를 다룰 때 많이 쓰이는 feature들에 대해 정리해 보려 한다.간단한 것들은 새로 배울 때마다 그때그때 내용을 추가할 예정이다.librosa : 대표적으로 사용하는 auduio domain 라이브러리이다. MFCC/Mel Spectrogram 등을 추출할 때 사용하며 이외에도 여러 피처를 추출할 때 자주 쓰인다.(Document) https://librosa.org/doc/latest/index.htmlopensmile : pitch, energy, formant 등을 추출할 수 있는 기능을 제공한다. (이러한 피처들이 감정 분석에 중요한 요소라고 한다)(Document) https://audeering.github.io/opensmile/parselmouth : Praat ..

MFCC(Mel Frequency Cepstral Coefficient) 간단 정리

0. 참고 자료 멜 스펙트로그램(Mel Spectrogram) 간단 정리참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이dohyeon-ai.tistory.com(위 글을 읽고 오시면 이해가 수월해집니다.)  Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What’s In-BetweenUnderstanding and computing ..

멜 스펙트로그램(Mel Spectrogram) 간단 정리

참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이 찾아서 하고 있는 중이다.요즘에는 크게 1) 머릿속 내부 발화(Inner Speech)의 Voice Reconstruction 연구, 2) 통화 데이터 기반 실시간 인공지능 거짓말(보이스피싱) 탐지기 개발 이렇게 두 가지의 프로젝트를 하는데, 이 두 프로젝트 모두 공통적으로 음성 데이터에서 어떻게 유의미한 feature를 뽑아낼 것인지에 대한 고민이 필요하다. 그리고 이때 '어떤 좋은 feature를 뽑아야 하는가'에..