Exponentially weighted averages$v_t = \beta v_{t-1} + (1-\beta) \theta_t$이전 값과 새로운 값을 일정 비율로 섞는 방법을 얘기한다.여기서 \beta의 값에 따라 총 $1/(1-\beta)$개의 개수의 값을 평균내었다고 얘기할 수 있다. 아래 그림에서 빨간 선은 \beta가 0.9,초록 선은 \beta=0.98노란 선은 \beta=0.5일 때의 보습을 보여준것이다. $t=2$일 때를 잠시 생각해보자.위 식에서 보이듯이 초기화를 0으로 하기 때문에, $t$가 작다면 실제값과 $v_t$가 다르게 나오게 된다.예들 들면 $\beta=0.98$일 때, $v_t$는 $0.0196\theta_1 + 0.02 \theta_2$로 실제값보다 많이 작아지게된다...