[Fundamentals] 2

[201804]Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results

Author: Antti Tarvainen and Harri Valpola | Arxiv, 2018https://arxiv.org/abs/1703.01780 요약 이 논문에서는 unlabeled data를 labeled data와 함께 학습에 활용하기 위한 Semi-supervised model을 소개한다. 제안하는 모델은 Mean Teacher로, 기존에 SSL에 사용되던 gamma-model이나 Temporal ensembling보다 더 우수한 성능을 낸다.  또 이 방법 덕분에 각 에포크 이후 업데이트되던 Temporal Ensembling과 달리, 매 학습 스텝마다 모델의 평균 가중치를 업데이트할 수 있게 되어 더 빠르게 학습할 수 있게 되었다. teacher-student 구조인 이 모델은 st..

(작성중)[Transformer] Attention Is All You Need

출처 : Attention is All you Need (neurips.cc)  2016년 Attention Mechanism(1409.0473 (arxiv.org))의 등장은 RNN 계통의 모델들이 갖는 장기 의존성 문제를 해결하는 데에 있어 초석이 되었다. 그리고 2017년에는 Backpropagation을 사용하지 않고 Attention Mechansim만을 활용하여 시퀀스 데이터를 처리할 수 있는, 당시 최고의 성능을 가진 모델 Transformer가 등장하였고, 이는 AI 업계를 크게 뒤흔들어 놓았다(현재는 Mamba와 같은 더욱 성능이 좋은 모델에 대한 최신 논문도 나오고 있다). 우리가 많이 사용하고 있는 'GPT' 또한 그 의미 자체가 General Pre-trained Transforme..