층이 많은 신경망의 비용함수 공간에는 가파른 영역이 있어, 큰 가중치들이 함께 곱해져 이런 영역이 생성됩니다. 이 가파른 영역에서는 기울기 갱신 시 매개변수들이 크게 변해 절벽을 완전히 뛰어넘기 쉽습니다.
기울기 절단 기법과 신경망 최적화
기울기 절단 기법은 기울기가 최적의 단계 크기를 나타내는 것이 아니라 무한소 영역 안에서의 최적의 방향을 나타낸다는 핵심을 가지고 있습니다. 전통적인 경사 하강법에서 큰 갱신 단계를 적용할 때 발생하는 문제를 기울기 절단으로 완화할 수 있습니다. 이 기법은 가파른 하강 방향을 벗어나는 가능성을 줄입니다. 순환 신경망의 비용함수에서 절벽 구조는 자주 나타나며, 이는 순차적인 곱셈으로 인해 극히 큰 값이 발생하기 때문입니다.
계산 그래프의 깊이와 신경망 최적화
계산 그래프의 깊이는 신경망 최적화 알고리즘에서 극복해야 할 중요한 문제 중 하나입니다. 층이 많은 신경망, 특히 순환 신경망에서는 긴 시간적 순차열의 각 단계에서 같은 연산을 반복하기 때문에 깊은 계산 그래프가 형성됩니다. 매개변수를 반복적으로 적용할 때 이 문제가 특히 두드러집니다.
대부분의 최적화 알고리즘은 정확한 기울기나 헤세 행렬에 접근할 수 있다는 가정하에 설계됩니다. 그러나 실제 응용에서는 기울기나 헤세 행렬이 잡음이 섞인 근삿값 또는 편향된 추정량으로 주어지는 경우가 많습니다. 거의 모든 심층 학습 알고리즘은 표본추출 기반의 추정에 의존합니다.
기울기 근사와 대리 손실함수 선택
목적함수 자체가 실제로 처리 불가능한 경우가 있습니다. 이럴 때는 기울기를 근사하는 방법을 사용해야 합니다. 예를 들어, 볼츠만 기계의 처리 불가능한 로그가능도의 기울기를 근사할 때는 대조 발산 기법이 유용합니다.
기울기 추정의 불완전성을 고려하여 설계된 다양한 신경망 최적화 알고리즘이 있습니다. 실제 손실함수보다 근사하기 쉬운 대리 손실함수를 선택함으로써 부정확한 기울기 문제를 피할 수도 있습니다.
최적화의 문제점과 극복 방안
최적화의 여러 문제점은 주어진 한 점에서 손실함수가 가지는 불리한 속성들에 대응됩니다. 이러한 문제점들은 현재 점에서 조건화가 나쁘거나 절벽에 걸려 있거나 안장점에 있는 상황과 관련되어 있습니다.
그런데 하나의 점에서 이런 문제점을 극복한다 해도, 국소적으로 가장 개선이 큰 방향이 멀리 떨어진 곳에 있는 경우 전체적인 성과가 여전히 나쁠 수 있습니다.
신경망 최적화와 임계점 문제
최적화의 어려움에 관한 연구 중 일부는 훈련 과정에서 최소점, 극소점, 안장점에 도달하는지 여부에 중점을 둔 것이 많습니다. 그러나 실제 응용에서 신경망은 그러한 임계점에 도달하지 않을 때가 많습니다. 신경망이 기울기가 작은 영역에 머무를 수 있습니다. 실제로 그런 임계점이 반드시 존재하는 것도 아닙니다. 예를 들면, 손실함수에 최소점이 없고 대신 모형의 확신이 커짐에 따라 특정 값에 접근할 수 있습니다. 이산 변수를 다루는 분류기의 경우, 모형이 훈련 집합의 모든 샘플을 정확하게 분류할 수 있다면 음의 로그 손실은 0에 근접할 수 있지만 정확히 0이 되지는 않습니다. 실숫값을 다루는 모델에서는 음의 로그 가능도가 음의 무한대에 근접할 수 있습니다. 함수가 훈련 집합의 모든 목표를 정확하게 예측할 수 있다면, 학습 알고리즘에 의해 손실은 계속 감소할 수 있습니다. 극소점이나 안장점이 전혀 없어도, 국소적 최적화가 만족할 만한 손실 값에 도달하지 못할 수 있습니다.
경사 하강법과 목적함수의 근사성
경사 하강법은 신경망 훈련을 위한 학습 알고리즘 중 하나로, 작은 국소 이동을 반복하는 방식입니다. 목적함수의 일부 속성은 근사적으로만 계산할 수 있습니다. 기울기가 대표적인 예로, 정확한 방향을 근사한 추정량에는 편향이나 변동이 있을 수 있습니다. 국소적인 경사 하강법을 사용해도 실제로는 효과적인 해로의 짧은 경로를 따라가지 못할 수 있습니다. 목적함수에 불량조건이나 불연속 기울기와 같은 문제가 있으면, 기울기가 목적함수의 적절한 영역을 제대로 표현하지 못할 수 있습니다. 이런 경우 경사 하강법은 단계 크기로만 국소 하강 방향을 계산하므로 경로를 따라가는 데 필요한 계산 비용이 늘어납니다. 또한, 국소 정보가 유용한 방향을 제공하지 않을 수 있습니다. 예를 들어, 함수에 넓은 평평한 영역이 있거나 특정 임계점에 도달했을 때 국소 하강법은 적절한 경로를 찾지 못할 수 있습니다. 이러한 문제 중 어떤 것이 신경망 최적화를 가장 어렵게 만드는지는 아직 명확하게 알려지지 않았습니다.
전통적인 최적화 알고리즘의 초기 점 선택의 중요성
어떤 문제점이 가장 중요한지는 아직 확정되지 않았습니다. 그러나 국소 하강이 따라갈 수 있는 적절한 경로가 존재하고, 그 경로 안에서 학습을 초기화할 수 있다면 이러한 문제점들을 피할 수 있을 것입니다. 이런 관점에서 전통적인 최적화 알고리즘이 사용하는 초기 점을 잘 선택하는 것이 중요한 의미를 가질 수 있습니다.
결론
결론적으로, 신경망 최적화에서는 층이 많은 신경망의 비용함수 공간에는 가파른 영역이 형성되어 있어 이를 극복하는 방안으로 기울기 절단 기법과 대리 손실함수 선택 등이 제안되고 있으며, 최적화 알고리즘의 초기 점 선택이 중요한 역할을 할 수 있습니다.