gradient 4

[딥러닝] 3. multi layer network에서의 gradient 계산과 차원

[딥러닝] 2. Shallow Neural Network / Activation function [딥러닝] 2. Shallow Neural Network / Activation functionNeural Network 이전 글에서 알아봤던 logistic regression을 아래처럼 표시해보자.이런 작은 층을 여러 개 쌓으면 Neural Network가 된다.대괄호 [ ] 는 층을 얘기한다.computation graph를 그리면 아래와 같다. 보april2901.tistory.com 이번 글에서는 이전 글들에서 계속 다뤘던 두 개의 층을 가진 신경망에서 역전파를 사용해 gradient를 계산해보자. 먼저 각 층의 unit의 개수를 각각 $n^{[0]}, n^{[1]}, n^{[2]}$라고 하자.그러..

CS/딥러닝 2026.03.25

[딥러닝] 1. Logistic Regression

Logistic Regression에 대해 알아보자. Binary CalssificationLogistic Regression이 사용되는 대표적인 문제 중 하나인 Binary Calssification을 알아보자.두 개의 카테고리 중 어느 것에 속하는지를 분류하는 문제를 얘기한다.어떤 이미지가 고양이를 포함하는지 아닌지 파악하는 task가 있다고 하자.이 task는 이미지를 입력으로 받아 출력으로 고양이가 있을 확률을 출력한다.내부적으로는 확률이지만 최종적으로는 특정 임계값을 기준으로 이 값보다 크면 1로, 작으면 0으로 취급해서 결과를 얘기할 때도 있다. 입력인 이미지는 색깔이 있는 이미지일 경우 아래처럼 RGB채널별로 값이 있을 것이다.이 각 픽셀의 값들을 한줄로, 1차원으로 만들어 입력으로 사용한다..

CS/딥러닝 2026.03.11

[Stanford 강의] Lecture 3 : Backpropagation, Neural Network

비선형성이전 강의의 강의자료 후반에도 있던 여러개의 층으로 된 신경망 그림이다. 여기서 중간 층들은 스스로 다음 층에 넘겨줄 좋은 값이 무엇인지 학습하게 된다.이 특성이 다른 머신러닝보다 신경망을 더 강력하게 만든 요인이다. 층 사이의 계산이 어떻게 되는지 자세히 알아보자.각각의 주황색 노드는 로지스틱 회귀를 한다고 생각할 수 있다. 옆의 그림에서 $a_1 = f(W_{11} x_1 + W_{12} x_2 + W_{13} x_3 + b_1)$$a_2 = f(W_{21} x_1 + W_{22} x_2 + W_{23} x_3 + b_2)$처럼 계산된다. 위 식의 모든 변수는 스칼라인데 이를 벡터로 바꾸면 식을 간단하게 쓸 수 있다.$ z = Wx +b$$a = f(z)$ $f()$는 비선형 함수인데, 이..

[Stanford 강의] Lecture 1 : Intro and Word Vectors

친구와 같이 스탠포드 대학교의 자연어처리(NLP) 수업을 들어보기로 했다.수업영상은 유튜브에 업로드 되어있다.영상은 아래 링크를 참고하면 된다. https://www.youtube.com/watch?v=DzpHeXVSC5I&list=PLoROMvodv4rOaMFbaqxPDoLWjDaRAdP9D&index=2 첫 강의이다 보니 과목 개요와 배경 등을 설명해주고 시작한다.이 부분은 조금 간단히 요약해 기록만 하고 넘어갈 예정이다. Intro인간은 언어를 통해 유인원들과 차별화된다.언어는 크게 두 가지의 핵심기능이 있다. 소통(communication)과 고등 사고(higher thought)이다. 이후 문자가 발명되어 발전이 더 가속화 되었다.자연어 처리 분야는 최근 10년간 큰 발전이 있었다.이전의 키워드..