분류 전체보기 10

[202002]A Framework for the Robust Evaluation of Sound Event Detection

Author: Cagdas Bilen, Giacomo Ferroni, Faancesco Tuveri, Juan Azcarreta and Sacha Krstulovic | Arxivhttps://arxiv.org/abs/1910.08440  요약기존의 SED를 평가하는 방식에는 (1) OP 의존성 문제, (2) sound event 정의에 대한 주관성 문제, (3) CT를 고려하지 못하고 있다는 문제 등이 있었다. 그렇기 때문에 단순히 F1-score만을 사용하여 평가하기에는 적절하지 못했고, 이러한 문제를 해결하기 위해 DTC/GTC라는 개념을 활용해 FP/TP를 새롭게 정의하고, 이 과정에서 만들어지는 ROC Curve를 PSD-ROC Curve, 이의 AUC 계산값을 PSDS라고 정의하며 새로운 평가..

[201804]Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Author: Antti Tarvainen and Harri Valpola | Arxiv, 2018https://arxiv.org/abs/1703.01780 요약 이 논문에서는 unlabeled data를 labeled data와 함께 학습에 활용하기 위한 Semi-supervised model을 소개한다. 제안하는 모델은 Mean Teacher로, 기존에 SSL에 사용되던 gamma-model이나 Temporal ensembling보다 더 우수한 성능을 낸다.  또 이 방법 덕분에 각 에포크 이후 업데이트되던 Temporal Ensembling과 달리, 매 학습 스텝마다 모델의 평균 가중치를 업데이트할 수 있게 되어 더 빠르게 학습할 수 있게 되었다. teacher-student 구조인 이 모델은 st..

Audio & Speech 기본 개념

새로운 거 배울 때마다 그때그때 정리할 예정 Power에너지의 시간에 따른 변화율을 나타낸다. 일반적인 물리에서 사용하는 Power(전력) 개념과 같다. 단위는 W(Watt)이다.물리에서 일반적인 계산은 간단히 P = W/t로 하지만, 음파는 파동이기 때문에(즉 시간에 따라 에너지가 지속적으로 변하기 때문에) Amplitude의 제곱 평균으로 표현한다. 즉,으로 구하고,여기서 제곱을 사용하는 이유는, 음파는 진폭이 양수와 음수로 변동하므로 평균을 구하면 0이 될 가능성이 있기 때문이다. Decibel(dB)신호 크기(Amplitude 또는 Power)나 에너지 비율을 로그 스케일로 표현하는 단위이다.단위 자체는 비율을 나타내므로 절대적인 값을 갖지 않으며, 두 값의 비율을 비교하기 위해 사용된다. dB는..

(작성중)[202101]Polyphonic Sound Event Detection Based on Residual Convolutional Recurrent Neural Network With Semi-Supervised Loss Function

Author: Nam Kyun Kim and Hong Kook Kim | IEEE Accesshttps://ieeexplore.ieee.org/document/9312148 Polyphonic Sound Event Detection Based on Residual Convolutional Recurrent Neural Network With Semi-Supervised Loss FunctionPolyphonic sound event detection (SED) is an emerging area with many applications for smart disaster safety, security, life logging, etc. This paper proposes a two-stage polypho..

(작성중)[Transformer] Attention Is All You Need

출처 : Attention is All you Need (neurips.cc)  2016년 Attention Mechanism(1409.0473 (arxiv.org))의 등장은 RNN 계통의 모델들이 갖는 장기 의존성 문제를 해결하는 데에 있어 초석이 되었다. 그리고 2017년에는 Backpropagation을 사용하지 않고 Attention Mechansim만을 활용하여 시퀀스 데이터를 처리할 수 있는, 당시 최고의 성능을 가진 모델 Transformer가 등장하였고, 이는 AI 업계를 크게 뒤흔들어 놓았다(현재는 Mamba와 같은 더욱 성능이 좋은 모델에 대한 최신 논문도 나오고 있다). 우리가 많이 사용하고 있는 'GPT' 또한 그 의미 자체가 General Pre-trained Transforme..

[NIPS 2024] Neural Analysis and Synthesis: Reconstruction Speech from Self-Supervised Representations

(Reference) Hyeong-Seok, Choi., Juheon, Lee., Wan-Soo, Kim., Jie, Hwan, Lee., Hoon, Heo., Kyogu, Lee. (2021). Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations.. arXiv: Soundhttps://proceedings.neurips.cc/paper_files/paper/2021/file/87682805257e619d49b8e0dfdc14affa-Paper.pdf  이 논문에서는 neural analysis and synthesis(NANSY)라는, 사람 음성 신호의 voice, pitch, speed을 조절..

자주 쓰이는 Acoustic feature와 추출 방법

오늘은 대중적으로 쓰이는 acoustic feature들에 대해 정리해 보려 한다.간단한 것들은 새로 배울 때마다 그때그때 내용을 추가할 예정이다.librosa : 대표적으로 사용하는 auduio domain 라이브러리이다. MFCC/Mel Spectrogram 등을 추출할 때 사용하며 이외에도 여러 피처를 추출할 때 자주 쓰인다.(Document) https://librosa.org/doc/latest/index.htmlopensmile : pitch, energy, formant 등을 추출할 수 있는 기능을 제공한다. (이러한 피처들이 감정 분석에 중요한 요소라고 한다)(Document) https://audeering.github.io/opensmile/parselmouth : Praat softw..

MFCC(Mel Frequency Cepstral Coefficient) 간단 정리

0. 참고 자료 멜 스펙트로그램(Mel Spectrogram) 간단 정리참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이dohyeon-ai.tistory.com(위 글을 읽고 오시면 이해가 수월해집니다.)  Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What’s In-BetweenUnderstanding and computing ..

멜 스펙트로그램(Mel Spectrogram) 간단 정리

참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이 찾아서 하고 있는 중이다.요즘에는 크게 1) 머릿속 내부 발화(Inner Speech)의 Voice Reconstruction 연구, 2) 통화 데이터 기반 실시간 인공지능 거짓말(보이스피싱) 탐지기 개발 이렇게 두 가지의 프로젝트를 하는데, 이 두 프로젝트 모두 공통적으로 음성 데이터에서 어떻게 유의미한 feature를 뽑아낼 것인지에 대한 고민이 필요하다. 이러한 좋은 feature를 뽑아낼 수 있는 대표적인 방법..

05. 대리 분석

2. 대리 분석 (Surrogate Analysis)참고 자료 : https://www.yes24.com/Product/Goods/89583774 XAI 설명 가능한 인공지능, 인공지능을 해부하다 - 예스24XAI(eXplainable Artificial Intelligence)는 인공지능의 판단 이유를 설명하는 연구 분야로, 인공지능 기술이 확대되면서 그 필요성이 함께 증가하고 있다. 이것은 알고리즘의 설계자조차 인공지능의 판단www.yes24.com Google Colaboratory실습 샘플 코드개념1. 대리 분석 개론a. 개요 및 기본 개념엔지니어링에서의 대리 분석 : 본래 기능을 흉내내는 간단한 대체재를 만들어, 프로토타입의 동작 여부를 판단하는 분석 방법완제품으로 결과를 내는 데 비용 소모가 ..

[기타]/XAI 2023.08.24