minibatch 2

[딥러닝] 5. Mini batch와 Batch Normalization

Batch이전 글에서 효율적인 행렬연산을 위해 여러 데이터를 붙이는 Vectorization을 얘기했었다.좋은 방법이지만 만약 데이터의 수가 너무 많아지면 메모리가 부족해질 수 있다.그래서 mini batch를 사용한다.데이터의 일부만을 묶어서 사용하는 방법이다.계산이 크게 달라지는 것 없이 그냥 mini batch를 전체 데이터라고 생각하면 된다. 예를 들어 500만 개의 데이터를 다룰 때 1000개씩 끊어서 이용한다면,batch size는 1000,mini batch 수는 5000이 된다. 한 세트를 처리하는 것을 1 iteration이라고 하고, 위 예시의 경우 5000번의 iteration을 수행하면 전체 데이터를 다 보게 되는데,이를 1 epoch라고 한다. 미니배치 사이즈 정하기미니배치가 무엇..

CS/딥러닝 2026.04.01

[Stanford 강의] Assignment2

Stanford대학교의 nlp강의 cs224n수업의 2주차에 해당하는 과제이다. 과제 문서는 이 링크에서 확인할 수 있다.https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1246/assignments/a2.pdf 이번 과제는 word2vec의 수학적 원리를 알아보고, neural dependency parser를 만들어보는, 총 두 개의 큰 주제로 나눠져 있다.아래의 내 답은 틀릴 수 있다는 것을 감안해야한다. 1. Understanding word2vecskip-gram에 대해 다시 기억을 되짚어 보면,중심단어가 주어졌을 때 주변단어가 올 확률을 높이는 방식으로 학습했다는 것을 기억할 수 있다.다만 실제로는 확률을 최대화 하는 대신 손실함수를 최소화하..