신경망을 설계하고 훈련하는 것은 경사 하강법을 사용하여 다른 기계 학습 모델을 훈련하는 것보다 매우 어렵지 않습니다.
비선형과 비용 함수 선택
신경망과 선형 모형 간의 가장 큰 차이점은 신경망이 비선형성을 갖기 때문에 블록 함수를 손실 함수로 사용하기에 적합하지 않을 때가 많다는 것입니다. 일반적으로 신경망에서는 선형 회귀 모델의 훈련에 사용되는 연립 방정식 해법이나 로지스틱 회귀 또는 지지 벡터 머신(SVM)의 훈련에 사용되는 전역 수렴을 보장하는 볼록 함수 최적화 알고리즘 대신, 비용 함수를 최소화하기 위한 반복적인 기울기 기반 최적화 절차를 사용합니다. 볼록 함수 최적화 대신 이러한 절차는 비용 함수를 아주 낮은 값으로 이끄는 역할만 하며, 임의의 초기 매개변수에서 시작하여 반드시 수렴하는 것은 아닙니다. 비볼록 손실 함수에 확률적 경사 하강법을 적용할 때도 이러한 수렴이 보장되지 않으며 결과가 초기 매개변수에 민감하게 변할 수 있습니다. 순방향 신경망에서는 모든 가중치를 작은 난수로 초기화하는 것이 중요하며, 치우침 매개변수들은 0 또는 작은 양수로 초기화할 수 있습니다.
비용 함수의 다양한 선택
비용 함수의 선택은 심층 신경망 설계에서 중요한 측면 중 하나입니다. 다행히도 신경망을 위한 비용 함수들은 다른 매개변수적 모형의 비용 함수와 다소 유사합니다.
일반적으로 매개변수적 모형은 하나의 분포를 정의하며, 이 경우 최대가능도 원리를 적용하여 훈련을 진행합니다. 이런 경우에는 훈련 데이터와 모형의 예측 사이의 교차 엔트로피를 비용 함수로 사용할 수 있습니다.
그러나 때로는 출력에 대한 전체 확률 분포를 예측하는 대신 입력 조건에 따른 출력의 어떤 통계량을 예측하는 더 간단한 접근 방식이 바람직할 때도 있습니다. 이러한 경우, 특정한 추정량을 예측하는 모델을 훈련하기 위해 특화된 손실 함수를 사용할 수 있습니다.
신경망 훈련에 사용되는 총비용 함수는 일반적으로 기본적인 비용 함수 중 하나에 정칙화 항을 결합한 형태로 구성됩니다. 이러한 경우 선형 모형에서 사용되는 가중치 감쇄 접근 방식을 심층 신경망에 직접 적용할 수 있습니다.
최대가능도와 비용함수
대부분의 현대적인 신경망은 최대가능도를 사용하여 훈련합니다. 이는 비용 함수가 단순히 음의 로그 가능도를 의미하는데, 이러한 로그 가능도는 훈련 데이터와 모델 분포 간의 교차 엔트로피로도 동일하게 설명할 수 있습니다.
최대가능도를 사용하여 비용 함수를 유도하는 이러한 접근 방식의 한 가지 장점은 각 모델마다 매번 비용 함수를 설계하는 부담이 없다는 것입니다. 모델을 결정한 후에는 비용 함수가 자동으로 결정되므로 모델 훈련 과정이 간단해집니다.
비용 함수의 기울기와 활성화 함수
신경망 설계에서 자주 다루는 주제 중 하나는 비용 함수의 기울기가 학습 알고리즘을 효과적으로 안내할 수 있을 정도로 충분히 크고 예측할 수 있어야 한다는 것입니다. 포화하는 함수들은 이 목적에 부합하지 않습니다. 이는 함수가 평탄한 영역에서 기울기가 매우 작아지기 때문입니다. 많은 경우 은닉층이나 출력층에서 사용되는 활성화 함수가 포화하면 비용 함수의 기울기가 매우 작아집니다. 이러한 현상을 피하기 위해 음의 로그 가능도를 기반으로 하는 모델이 유용할 수 있습니다. 신경망 모델 중에는 출력층에 있는 exp 함수를 포함하는 경우가 있는데, 이러한 함수는 인수가 매우 큰 음수인 경우에 포화합니다. 음의 로그 가능도 비용 함수의 log 함수는 이러한 일부 출력층의 exp 함수의 영향을 상쇄시킵니다.
최대가능도 추정을 수행하는 데 사용되는 교차 엔트로피 비용 함수의 한 가지 특징은 실제 응용에서 흔히 사용되는 모델들에서 이 함수에 최솟값이 없을 수 있다는 것입니다. 이산 출력 변수의 경우 대부분의 모델은 정확한 확률값 0과 1을 표현하지 못하며, 그 대신 이 두 극단에 매우 가까워질 수 있는 방식으로 매개변수화됩니다. 로지스틱 회귀가 이러한 모델의 예입니다. 실수 출력 변수의 경우, 모델이 출력 분포의 밀도를 조절할 수 있다면 훈련 데이터의 정확한 출력값에 극도로 높은 밀도를 할당할 수 있습니다. 이 경우 교차 엔트로피는 음의 무한대로 수렴할 수 있습니다.
비용 함수와 출력 단위의 관계
비용 함수의 선택은 출력 단위의 선택과 밀접하게 관련되어 있습니다. 대부분의 경우에는 자료 분포와 모형 분포 사이의 교차 엔트로피를 비용 함수로 사용합니다. 이러한 교차 엔트로피 비용 함수의 형태는 출력의 표현 방식에 따라 달라집니다.
최대가능도 구조를 사용하면 가우스 분포의 공분산을 간단하게 학습할 수 있으며, 가우스 분포의 공분산을 입력의 함수로 만드는 것도 가능합니다. 하지만 공분산 행렬은 반드시 모든 입력에 대해 양의 정부호 행렬이어야 한다는 제약이 있습니다. 선형 출력층으로는 이러한 제약을 충족하기 어려우므로 공분산 행렬을 매개변수 화할 때는 일반적으로 선형 단위 이외의 출력 단위를 사용하는 것이 좋습니다.
이진 변수 예측과 베르누이 분포
딥러닝에서 자주 다루는 과제 중 하나는 이진 변수의 값을 예측하는 것입니다. 이는 대상을 두 부류로 나누는 분류 문제로 형식화될 수 있습니다. 이러한 문제에 최대가능도 접근 방식을 적용할 때, 입력이 주어졌을 때의 출력에 관한 베르누이 분포를 정의합니다. 이러한 접근 방식은 출력이 이진 변수인 경우 자연스럽게 적용될 수 있습니다.
결론
딥러닝에서는 신경망을 설계하고 훈련하는 것이 경사 하강법을 사용하여 다른 기계 학습 모델을 훈련하는 것보다 어려운 경우가 많습니다. 특히 비선형성을 갖는 신경망에서는 볼록 함수 최적화 알고리즘을 사용하는 것이 아닌 반복적인 기울기 기반 최적화 절차를 사용해야 합니다. 또한 비용 함수의 선택은 심층 신경망 설계에서 중요한 측면 중 하나이며, 대부분의 경우 최대가능도를 사용하여 훈련됩니다. 최대가능도를 사용하는 이러한 접근 방식은 모델을 결정한 후에도 비용 함수를 자동으로 결정하므로 모델 훈련 과정이 단순화됩니다. 그러나 함수의 포화는 비용 함수의 기울기를 작게 만들 수 있으므로 활성화 함수의 선택도 중요합니다. 이러한 과정에서 비용 함수와 출력 단위의 선택은 서로 밀접하게 관련되어 있습니다. 최대가능도 접근 방식은 이진 변수 예측 문제에 자연스럽게 적용될 수 있습니다.