[DL] 역전파(backpropagation)

728x90

- 신경망의 손실함수 식 : 다차함수 → 정의하거나 미분하기 어려움

- 신경망의 목적 : 손실함수가 최솟값일 때의 파라미터를 찾아 올바른 학습 결과를 내는 것(회귀분석이나 로지스틱 회귀와 기본 개념이 같음, 단 신경망이 사용하는 파라미터의 개수가 더 많음)

- 역전파(backpropagation)

0에 가까운 미분 값을 찾는 이유? 경사 하강법에서 기울기값이 0에 가까워졌을 때, 손실함수 값이 최솟값 후보가 되기 때문
- 후보? 계산 결과를 통해 기울기가 0에 가까워졌다 해도 그 값이 꼭 최솟값이라 확신할 수 없음
- → 기울기에 대한 변화가 없다가 다시 점차 증가 혹은 감소하는 현상이 발생할 수도 있으며 마치 심하게 요동치는 파동과도 같은 모습을 보이는 경우가 다수 있기 때문
E를 각각 전개하여 직접 편미분을 진행하면 꽤나 번거로움 → 입력값 각각의 손실함수를 편미분한 후에 합이 0에 가까운지 확인하는 것이 더 간단

- 손실함수가 최솟값일 때의 가중치 찾아보기

- 역전파 기법의 문제 : 기울기 소멸 문제

당시 역전파 알고리즘에서 주로 사용된 활성화 함수는 Sigmoid, Softmax
시그모이드의 경우, 미분의 최대치가 0.3이며 여러 층을 거칠 수록 기울기는 점차 0에 수렴하는 문제
소프트 맥스는 출력 값으로 확률 벡터를 얻기 위해 사용됐는데, 각 출력 노드의 출력값을 0에서 1 사이의 값으로 제한
시그모이드, 소프트맥스는 최종 출력을 결정하는데 있어 합리적인 선택이 가능했으나, 출력된 값들이 항상 너무 적은 값을 가지고 있었기에 신경망이 깊어질수록 오차의 기울기가 점차 작아지며 끝으로 가는 도중 기울기가 소실되면서 가중치 조정이 이뤄지지 않는다는 (학습이 잘 되지 않는) 문제 발생
기울기 소멸 문제를 해결하기 위해 제프리 힌튼 교수 'ReLU'함수를 활성화 함수로 활용
- 'ReLU'는 입력이 음수일때는 0 출력, 양수일때는 양수 값을 그대로 출력
- 다른 함수보다 기울기 소실문제에 있어 어느 정도 면역을 가짐

728x90

[DL] 퍼셉트론(perceptron) (0)	2021.05.13
[DL] 딥러닝 기초 (0)	2021.05.12

데이터분석_공부기록