고차원 비볼록함수에서는 극소점이 안장점과 비교하여 드물며, 안장점 주변에는 비용이 큰 점과 작은 점이 혼재합니다. 안장점에서 헤세 행렬은 양과 음의 고윳값을 가지며, 양의 고윳값과 연관된 방향의 점은 비용이 많이 들고, 음의 고윳값과 연관된 방향의 점은 비용이 적습니다. 따라서 안장점은 비용함수의 한 단면에서의 극소점과 다른 단면에서 극대점이 일치하는 점으로 생각됩니다.
확률함수의 극소점과 안장점
확률함수에서 저 차원 공간에서는 극소점이 흔하지만, 고차원 공간에서는 극소점보다 안장점이 더 흔하며, 안장점 대비 극소점의 비율은 n의 거듭제곱으로 증가합니다. 극소점에서의 헤세 행렬은 양의 고윳값만을 가지지만, 안장점에서는 양과 음의 고윳값이 혼합되어 있습니다. 이 현상은 각 고윳값의 부호가 동전 던지기로 결정되기 때문입니다. 1차원에서는 극소점이 나오기 쉽지만, n 차원에서는 모든 동전이 앞면이 나와야 하므로 극소점이 나오기가 지수적으로 어려워집니다.
비용함수의 특징과 확률함수
여러 확률함수에서의 좋은 속성 중 하나는 비용이 작은 영역에 접근할수록 헤세 행렬의 고윳값들이 양수가 될 확률이 증가하는 것입니다. 동전 던지기 비유로 설명하면, 저비용 임계점에서는 앞면이 n번 나올 확률이 높다는 의미입니다. 또한, 극소점에서의 비용이 적을 확률이 비용이 높을 확률보다 훨씬 높다는 것을 의미합니다. 고비용 임계점들은 안장점일 가능성이 높고, 비용이 극도로 높은 임계점들은 극소점일 가능성이 크다는 것을 의미합니다.
비선형성이 없는 신경망과 비볼록함수
이러한 행동은 다양한 확률함수에서 관찰됩니다. 비선형성이 없는 얕은 자동부호기에서는 최소점과 안장점은 존재하지만, 최소점보다 비용이 큰 극소점은 존재하지 않음을 이론적으로 증명하였습니다. 이러한 결과는 비선형성이 없는 심층망에서도 확장된다고 강조되었습니다. 이런 신경망은 입력에 대한 선형 함수이지만, 비선형 신경망의 한 모형으로 연구하는 데 유용합니다. 이는 신경망의 비용함수가 신경망 매개변수에 대해 비볼록함수임을 의미합니다. 본질적으로, 이러한 신경망은 여러 행렬의 합성으로 구성됩니다. 이러한 신경망에서 완전한 학습 동역학에 대한 정확한 해를 제시하고, 이러한 모형에서 학습이 비선형 활성화 함수를 가진 심층 모형의 훈련에서 관찰되는 여러 정성적 특징을 가지고 있음을 보였습니다.
신경망의 안장점과 경사 하강법
안장점들이 많다는 것은 훈련 알고리즘이 기울기 정보만을 사용하여 1차 최적화 단계에서는 명확하게 나타나지 않습니다. 안장점 근처에서는 기울기가 매우 작아지는 경우가 흔합니다. 그러나 경험적으로 경사 하강법이 안장점들을 효과적으로 탈출할 수 있음을 보여주는 사례들이 많습니다. 최신 신경망의 학습 궤적을 관찰하면, 안장점 근처에서 비용함수가 평평해지는 현상과 동시에 경사 하강법이 이러한 영역을 빠르게 빠져나가는 것을 확인할 수 있습니다. 더불어, 연속 시간 경사 하강법은 근처의 안장점으로 끌려가는 것이 아니라 오히려 밀려나는 경향을 보일 수 있습니다.
심층 신경망의 비용함수와 시각화
실제 물체 인식과 자연어 처리 과제에 적용된 순방향 신경망, 합성곱 신경망, 순환 신경망의 비용함수들의 시각화 결과는 대체로 유사합니다. 이러한 시각화에서 뚜렷한 장애물은 드물게 나타나며, 2010년경부터 큰 모델을 확률적 경사 하강법으로 훈련하는 데 성공하기 전까지 신경망 비용함수의 표면이 비볼록 구조를 보이는 경우가 흔했습니다. 이런 훈련에서 주요 장애물은 고비용 안장점입니다. 이러한 안장점 주변에서는 매개변수가 초기화되지만, 확률적 경사 하강법의 훈련 궤적은 이러한 안장점을 효과적으로 벗어납니다. 훈련 시간의 대다수는 비용함수의 상대적으로 평평한 계곡을 지나는 데 사용되는데, 이는 기울기의 잡음이 많고 헤세 행렬의 조건화가 나쁜 영역 때문이거나, 높은 산을 반원형 경로로 돌아가야 하는 경우일 수도 있습니다.
뉴턴법과 안장점
뉴턴법의 경우에는 안장점이 큰 문제가 됩니다. 경사 하강법은 언덕을 따라 내려가는 알고리즘이지만, 명시적으로 임계점을 찾아가도록 설계되지 않았습니다. 반면, 뉴턴법은 기울기가 0인 점을 찾기 위해 설계된 방법입니다. 적절한 수정 없이 사용하면 뉴턴법은 안장점으로 빠져 발목을 잡을 수 있습니다. 경사 하강법 대신 2차 최적화 알고리즘을 사용하여 신경망을 훈련하려는 시도가 그리 성공적이지 못한 이유는 아마도 고차원 안장점이 많기 때문일 것입니다. 2차 최적화를 위한 안장점 없는 뉴턴법은 기존 뉴턴법보다 훨씬 더 나은 성과를 보여줍니다. 2차 방법들을 큰 신경망에 적용하기는 아직 어렵지만, 규모가변성 문제를 해결할 수 있다면 이런 안장점 접근 방식이 유용할 수 있습니다.
극대점과 퇴화지점
기울기가 0인 점 중에는 극소점과 안장점 외에도 극대점이 있습니다. 최적화 관점에서 극대점은 안장점과 매우 유사합니다. 극대점으로 끌려가지 않는 알고리즘들이 있지만, 수정되지 않은 뉴턴법은 극대점으로 빠져들 수 있습니다. 극소점과 마찬가지로, 고차원 공간에서 극대점은 지수적으로 드물게 나타납니다.
고정된 값들이 넓게 퍼져 있는 평평한 영역은 존재할 수 있으며, 그런 영역에서는 기울기와 헤세 행렬이 모두 0입니다. 이러한 퇴화 지점들은 수치 최적화 알고리즘에서 주요한 문제를 일으킵니다. 볼록함수 최적화에서는 넓고 평평한 영역이 최댓값으로만 이루어져 있지만, 일반적인 최적화 문제에서는 그런 영역이 목적함수의 값이 상대적으로 큰 영역일 수 있습니다.
결론
고차원 비볼록함수에서는 안장점이 극소점보다 흔하며, 안장점 주변에는 비용이 큰 점과 작은 점이 혼재합니다. 안장점에서는 헤세 행렬이 양과 음의 고윳값을 가지며, 이는 비용이 많이 드는 방향과 적은 방향을 결정합니다. 따라서 안장점은 비용함수의 한 단면에서의 극소점과 다른 단면에서의 극대점이 일치하는 점으로 볼 수 있습니다.