dohyeon

[202002]A Framework for the Robust Evaluation of Sound Event Detection

Author: Cagdas Bilen, Giacomo Ferroni, Faancesco Tuveri, Juan Azcarreta and Sacha Krstulovic | Arxivhttps://arxiv.org/abs/1910.08440 요약기존의 SED를 평가하는 방식에는 (1) OP 의존성 문제, (2) sound event 정의에 대한 주관성 문제, (3) CT를 고려하지 못하고 있다는 문제 등이 있었다. 그렇기 때문에 단순히 F1-score만을 사용하여 평가하기에는 적절하지 못했고, 이러한 문제를 해결하기 위해 DTC/GTC라는 개념을 활용해 FP/TP를 새롭게 정의하고, 이 과정에서 만들어지는 ROC Curve를 PSD-ROC Curve, 이의 AUC 계산값을 PSDS라고 정의하며 새로운 평가..

[Audio & Speech Fundamentals] 2025.01.08 6

[201804]Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Author: Antti Tarvainen and Harri Valpola | Arxiv, 2018https://arxiv.org/abs/1703.01780 요약 이 논문에서는 unlabeled data를 labeled data와 함께 학습에 활용하기 위한 Semi-supervised model을 소개한다. 제안하는 모델은 Mean Teacher로, 기존에 SSL에 사용되던 gamma-model이나 Temporal ensembling보다 더 우수한 성능을 낸다. 또 이 방법 덕분에 각 에포크 이후 업데이트되던 Temporal Ensembling과 달리, 매 학습 스텝마다 모델의 평균 가중치를 업데이트할 수 있게 되어 더 빠르게 학습할 수 있게 되었다. teacher-student 구조인 이 모델은 st..

[Fundamentals] 논문 2025.01.06 5

Audio & Speech 기본 개념

새로운 거 배울 때마다 그때그때 정리할 예정 Power에너지의 시간에 따른 변화율을 나타낸다. 일반적인 물리에서 사용하는 Power(전력) 개념과 같다. 단위는 W(Watt)이다.물리에서 일반적인 계산은 간단히 P = W/t로 하지만, 음파는 파동이기 때문에(즉 시간에 따라 에너지가 지속적으로 변하기 때문에) Amplitude의 제곱 평균으로 표현한다. 즉,으로 구하고,여기서 제곱을 사용하는 이유는, 음파는 진폭이 양수와 음수로 변동하므로 평균을 구하면 0이 될 가능성이 있기 때문이다. Decibel(dB)신호 크기(Amplitude 또는 Power)나 에너지 비율을 로그 스케일로 표현하는 단위이다.단위 자체는 비율을 나타내므로 절대적인 값을 갖지 않으며, 두 값의 비율을 비교하기 위해 사용된다. dB는..

[Audio & Speech Fundamentals] 2025.01.03 10

(작성중)[Transformer] Attention Is All You Need

출처 : Attention is All you Need (neurips.cc) 2016년 Attention Mechanism(1409.0473 (arxiv.org))의 등장은 RNN 계통의 모델들이 갖는 장기 의존성 문제를 해결하는 데에 있어 초석이 되었다. 그리고 2017년에는 Backpropagation을 사용하지 않고 Attention Mechansim만을 활용하여 시퀀스 데이터를 처리할 수 있는, 당시 최고의 성능을 가진 모델 Transformer가 등장하였고, 이는 AI 업계를 크게 뒤흔들어 놓았다(현재는 Mamba와 같은 더욱 성능이 좋은 모델에 대한 최신 논문도 나오고 있다). 우리가 많이 사용하고 있는 'GPT' 또한 그 의미 자체가 General Pre-trained Transforme..

[Fundamentals] 논문 2024.08.28 2

[NIPS 2024] Neural Analysis and Synthesis: Reconstruction Speech from Self-Supervised Representations

(Reference) Hyeong-Seok, Choi., Juheon, Lee., Wan-Soo, Kim., Jie, Hwan, Lee., Hoon, Heo., Kyogu, Lee. (2021). Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations.. arXiv: Soundhttps://proceedings.neurips.cc/paper_files/paper/2021/file/87682805257e619d49b8e0dfdc14affa-Paper.pdf 이 논문에서는 neural analysis and synthesis(NANSY)라는, 사람 음성 신호의 voice, pitch, speed을 조절..

[Audio Papers] 2024.05.08 7

티스토리툴바