ReLU 2

[딥러닝] 2. Shallow Neural Network / Activation function

Neural Network 이전 글에서 알아봤던 logistic regression을 아래처럼 표시해보자.이런 작은 층을 여러 개 쌓으면 Neural Network가 된다.대괄호 [ ] 는 층을 얘기한다.computation graph를 그리면 아래와 같다. 보통 입력층은 빼고 네트워크가 몇 층인지를 애기한다.따라서 아래의 그림에서는 깊이 2짜리 네트워크가 된다.아래처럼 3개의 입력(3차원)이 있다고 가정해보자.$a^{[1]}_1$같은 표현에서 지수 위치의 [ ]는 층을, 아래첨자는 각 노드의 값을 얘기한다. input layer에서 hidden layer로 넘어갈 때,각 입력들에게 가중치가 한 세트씩 곱해져 hidden layer의 각각의 노드에 들어간다.이 경우 한 세트는 3개의 가중치 값들로 이루어..

CS/딥러닝 2026.03.19

[AI] Vanishing Gradients

Vanishing Gradients라는 현상을 알아보자. AI를 학습할 때 backpropagation(역전파)이 진행되는 중에 gradient가 점차 줄어들어 앞쪽 layer에서 거의 학습이 되지 않는 현상이다.역전파는 미분을 계속 곱하면서 전달되는데 이 미분값들이 0~1사이라면 계속 값이 줄어들기 때문이다.sigmoid 함수의 경우 최대 미분값이 0.25이고, 양끝으로 갈수록 미분값은 더 낮아진다.앞쪽 layer에서 가중치 학습이 거의 이루어지지 않고 뒤쪽 layer에서만 조금 학습된다.따라서 전체 학습 속도가 느려지게 된다.이런 현상을 네트워크 앞부분이 죽는다고 표현하기도 한다. 이번 글에서는 2개의 은닉층이 있는 간단한 신경망에서 활성화 함수를 sigmoid와 ReLU로 각각 설정했을 때 학습의 ..

AI 2025.12.21