역전파 2

MatMul 노드(행렬곱)의 역전파

MatMul 노드의 역전파는 그 결과를 보면 다소 비직관적이다.따라서 이 MatMul의 역전파에 대해 좀 더 자세히 알아보자. 일단 MatMul 노드의 계산 그래프부터 확인해보자.현재 우리에게 주어진 식은 아래와 같다.x = 1xD 행렬W = DxH 행렬y = 1xH 행렬그리고, L에 대하여 x의 i번째 원소에 대한 편미분은 다음과 같이 구한다.우리는 근데 y와 x 사이의 관계를 이미 알고있다.따라서 위 식은 이렇게 치환이 가능하다.위 식에 의하여, L에 대하여 x의 i번째 원소에 대한 편미분의 경우 행렬곱을 이용해서 구해짐을 알 수 있게 된다.그럼 이제 L에 대하여 가중치 W에 대한 편미분을 구할 차례이다.이번엔 미니 배치 처리를 고려해 x에는 N개의 데이터가 담겨 있다고 가정해보자.이를 계산 그래프로..

[밑바닥부터 시작하는 딥러닝] 역전파

사실 이번 장에서는 밑바닥부터 시작하는 딥러닝 1의 경우 계산 그래프를 이용해 설명을 진행한다.해당 방식의 경우 그래프 개념으로 이해하기 쉽게 설명되어 있지만, 기계적인 암기 방법이라 시간복잡도 개선에 대한 인사이트를 얻긴 쉽지 않았다.따라서 이번 장의 내용은 책의 내용이 아닌 수식으로 정리한 방식으로 설명을 진행한다.계산 그래프와 시각 자료를 이용한 설명이 필요하시다면, 해당 책을 구입하셔서 보시는 것을 추천드립니다. 책 내용도 좋습니다.기존 방식먼저 들어가기 전에, 기존 방식의 문제점을 파악해보자.식 정리모델이 갖고 있는 가중치의 집합을 θ라 하자.아래를 "특정 y에 대한 손실 함수"라고 하자.전체 우리가 최소화하고자 하는 전체 손실 함수(Cost function)은 다음과 같이 표현될 것이다.수식에..