GPT 2

[NLP 논문] Attention Is All You Need

아래 글에서 이 블로그에서 리뷰한 논문들의 흐름과 분야별 분류를 한 눈에 볼 수 있다.읽은 논문들 정리 읽은 논문들 정리[목차]1. Computer Vision 분야 논문2. Natural Language Processing 분야 논문3. 유명한 딥러닝 논문들 지속적으로 업데이트 중1. Computer Vision1. AlexNet [2012년]대규모 CNN을 GPU로 학습해 ImageNet 성능을 크게 끌어올april2901.tistory.com 이번 논문은 트랜스포머 구조를 처음 제시한 것으로 매우 유명한 논문이다.이 링크를 클릭하면 논문으로 넘어간다. CV 분야 공부를 위해 이 논문을 읽게 되었지만 근본은 NLP분야에서 쓰인 논문이라서 NLP로 카테고리를 설정했다.1. Introduction이 당..

[Stanford 강의] Lecture 5 : Recurrent Neural Networks

과적합과 정규화이전에는 과적합이 좋지 않은 것으로 여겨졌지만, 현대의 거대 모델들은 훈련 데이터에 거의 완벽히 과적합 되도록 학습시킨다.만약 정규화를 잘 수행했다면 모델은 훈련 데이터가 아닌 다른 데이터에도 잘 일반화되기 때문이다. 정규화는 여러가지 방법이 있지만 이 중 Dropout이라는 방식을 알아보자.과제 2에서 이미 한번 나온 개념이지만, 다시 얘기하면 훈련 중에 중간 layer에서 몇몇 입력을 버리는 것이다.이를 위해 0과 1로 이루어진 마스크 행렬을 요소별 곱셈을 하면 된다. 이렇게 하면 모델은 하나의 입력에 강하게 의존할 수 없다.이 입력이 가끔 사라진 상태로 학습도 되기 때문이다. 테스트 시에는 모든 입력을 활성화 시킨다. 이게 좋은 이유에 대한 해석은 몇가지가 있는데,1. Feature ..