(작성중)[Transformer] Attention Is All You Need

출처 : Attention is All you Need (neurips.cc)  2016년 Attention Mechanism(1409.0473 (arxiv.org))의 등장은 RNN 계통의 모델들이 갖는 장기 의존성 문제를 해결하는 데에 있어 초석이 되었다. 그리고 2017년에는 Backpropagation을 사용하지 않고 Attention Mechansim만을 활용하여 시퀀스 데이터를 처리할 수 있는, 당시 최고의 성능을 가진 모델 Transformer가 등장하였고, 이는 AI 업계를 크게 뒤흔들어 놓았다(현재는 Mamba와 같은 더욱 성능이 좋은 모델에 대한 최신 논문도 나오고 있다). 우리가 많이 사용하고 있는 'GPT' 또한 그 의미 자체가 General Pre-trained Transforme..

[Fundamentals] 논문 2024.08.28 0

[NIPS 2024] Neural Analysis and Synthesis: Reconstruction Speech from Self-Supervised Representations

(Reference) Hyeong-Seok, Choi., Juheon, Lee., Wan-Soo, Kim., Jie, Hwan, Lee., Hoon, Heo., Kyogu, Lee. (2021). Neural Analysis and Synthesis: Reconstructing Speech from Self-Supervised Representations.. arXiv: Soundhttps://proceedings.neurips.cc/paper_files/paper/2021/file/87682805257e619d49b8e0dfdc14affa-Paper.pdf  이 논문에서는 neural analysis and synthesis(NANSY)라는, 사람 음성 신호의 voice, pitch, speed을 조절..

[Sound] 논문 리뷰 2024.05.08 1

Audio data에서 자주 쓰이는 feature와 추출 방법

오늘은 audio data를 다룰 때 많이 쓰이는 feature들에 대해 정리해 보려 한다.간단한 것들은 새로 배울 때마다 그때그때 내용을 추가할 예정이다.librosa : 대표적으로 사용하는 auduio domain 라이브러리이다. MFCC/Mel Spectrogram 등을 추출할 때 사용하며 이외에도 여러 피처를 추출할 때 자주 쓰인다.(Document) https://librosa.org/doc/latest/index.htmlopensmile : pitch, energy, formant 등을 추출할 수 있는 기능을 제공한다. (이러한 피처들이 감정 분석에 중요한 요소라고 한다)(Document) https://audeering.github.io/opensmile/parselmouth : Praat ..

[Sound] Fundamentals 2024.05.07 0

MFCC(Mel Frequency Cepstral Coefficient) 간단 정리

0. 참고 자료 멜 스펙트로그램(Mel Spectrogram) 간단 정리참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이dohyeon-ai.tistory.com(위 글을 읽고 오시면 이해가 수월해집니다.)  Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What’s In-BetweenUnderstanding and computing ..

[Sound] Mel 2024.05.07 1

멜 스펙트로그램(Mel Spectrogram) 간단 정리

참고 자료https://en.wikipedia.org/wiki/Mel_scalehttps://m.blog.naver.com/sooftware/221661644808 1. Introduction나는 음성과 인공지능을 결합하는 작업에 관심을 가지고 있다.그래서 그와 관련된 연구/프로젝트를 많이 찾아서 하고 있는 중이다.요즘에는 크게 1) 머릿속 내부 발화(Inner Speech)의 Voice Reconstruction 연구, 2) 통화 데이터 기반 실시간 인공지능 거짓말(보이스피싱) 탐지기 개발 이렇게 두 가지의 프로젝트를 하는데, 이 두 프로젝트 모두 공통적으로 음성 데이터에서 어떻게 유의미한 feature를 뽑아낼 것인지에 대한 고민이 필요하다. 그리고 이때 '어떤 좋은 feature를 뽑아야 하는가'에..

[Sound] Mel 2024.04.29 1