'GPT' 태그의 글 목록

[Stanford 강의] Lecture 5 : Recurrent Neural Networks

과적합과 정규화이전에는 과적합이 좋지 않은 것으로 여겨졌지만, 현대의 거대 모델들은 훈련 데이터에 거의 완벽히 과적합 되도록 학습시킨다.만약 정규화를 잘 수행했다면 모델은 훈련 데이터가 아닌 다른 데이터에도 잘 일반화되기 때문이다. 정규화는 여러가지 방법이 있지만 이 중 Dropout이라는 방식을 알아보자.과제 2에서 이미 한번 나온 개념이지만, 다시 얘기하면 훈련 중에 중간 layer에서 몇몇 입력을 버리는 것이다.이를 위해 0과 1로 이루어진 마스크 행렬을 요소별 곱셈을 하면 된다. 이렇게 하면 모델은 하나의 입력에 강하게 의존할 수 없다.이 입력이 가끔 사라진 상태로 학습도 되기 때문이다. 테스트 시에는 모든 입력을 활성화 시킨다. 이게 좋은 이유에 대한 해석은 몇가지가 있는데,1. Feature ..

AI/자연어처리(NLP) 2025.12.09

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

code the world

GPT 2

티스토리툴바