최적화 기법은 구체적인 알고리즘 자체가 아니라, 구체적인 알고리즘을 만들거나 기존 알고리즘에 적용할 수 있는 일반적인 틀을 의미합니다.
배치 정규화의 중요성
배치 정규화는 최근 심층 신경망의 최적화 분야에서 중요한 혁신으로 등장했습니다. 이는 최적화 알고리즘이 아니라 적응적 재매개변수화 방법의 하나로, 깊은 신경망 훈련의 어려움을 극복하기 위해 개발되었습니다.
배치 정규화의 작동 원리
아주 깊은 신경망은 여러 층으로 구성되며, 다양한 함수의 합성이 모형에 영향을 미칩니다. 경사 하강법은 모든 다른 층이 변하지 않는다는 가정에 따라 기울기를 기반으로 매개변수를 갱신합니다. 그러나 실제 응용에서는 모든 층을 동시에 갱신하므로, 갱신 과정에서 여러 함수가 동시에 변하게 되어 예상치 못한 결과가 발생할 수 있습니다.
배치 최적화의 특징 및 장점
배치 최적화는 심층 신경망의 재매개변수화에 우아한 해결책을 제공합니다. 재매개변수화를 통해 여러 층의 갱신 문제가 줄어듭니다. 배치 최적화는 신경망의 입력층이나 임의의 은닉층에 적용될 수 있으며, 활성화 값들의 미니배치를 포함하는 설계 행렬을 사용하여 정규화합니다. 이 공식은 각 행의 성분별로 평균을 빼고 표준편차로 나눈 값을 사용합니다. 역전파를 통해 이 연산을 수행하므로, 기울기로 인해 표준편차나 평균이 증가하는 문제가 발생하지 않습니다. 배치 정규화의 주요 혁신은 이러한 방식으로 활성화 값을 표준화하고 기울기에서 해당 성분을 0으로 만드는 것입니다. 이전의 재매개변수화 방법은 비용 함수에 벌점을 추가하거나 단위 통계량을 재정규화하는 접근을 사용했으나, 이 방법들은 문제가 많았습니다. 하지만 배치 정규화는 항상 일부 단위를 표준화하여 이러한 문제들을 효과적으로 해결합니다.
배치 정규화의 추가적인 특징
시험 시점에서는 평균과 표준편차를 훈련 과정에서 수집한 이동 평균으로 대체할 수 있습니다. 이렇게 하면 미니배치 전체에 의존하는 평균과 표준편차의 정의를 사용하지 않아, 모형을 단일 보기에 대해 평가할 수 있게 됩니다.
배치 정규화의 효율성
신경망의 마지막 층이 선형 변환을 학습할 수 있기 때문에, 한 층 내의 단위들 사이의 모든 선형 관계를 제거하는 것이 이상적일 수 있습니다. 그러나 모든 선형 상호작용을 제거하는 것은 개별 단위의 평균과 표준편차를 표준화하는 것보다 계산 비용이 더 많이 듭니다. 따라서 현재까지 배치 정규화가 가장 실용적인 접근 방식으로 여겨집니다.
좌표 하강법의 개념 및 특징
주어진 최적화 문제를 빠르게 해결하기 위해 문제를 작은 조각들로 분해하는 방법이 종종 사용됩니다. 함수를 한 변수에 대해 최소화한 후 다른 변수에 대해 최소화하는 방식으로 모든 변수를 차례로 최소화하면, 반드시 하나의 최솟값 또는 극솟값에 도달하게 됩니다. 이러한 방법을 좌표 하강법이라고 합니다.
블록 좌표 하강법의 개념
좌표 하강법을 좀 더 일반화한 기법으로는 일부 변수들에 대해 동시에 함수를 최소화하는 블록 좌표 하강법이 있습니다. 때로는 좌표 하강법이라는 용어가 개별 좌표 성분을 하나씩 최소화하는 방법을 의미할 때도 있지만, 블록 좌표 하강법을 의미할 때도 사용됩니다.
좌표 하강법의 적용 범위
좌표 하강법은 최적화 문제의 변수들을 비교적 독립적인 그룹으로 분리할 수 있을 때나, 한 변수 그룹에 대한 최적화가 다른 모든 변수에 대한 최적화보다 효율적일 때 주로 사용됩니다.
희소 부호화의 목표 및 적용 방법
희소 부호화의 목표는 활성화 값들의 행렬을 선형적으로 복호화하여 훈련 집합을 재구축할 수 있는 하나의 가중치 행렬을 찾는 것입니다. 실제로 희소 부호화를 적용할 때, 극도로 작은 활성화 행렬과 극도로 큰 가중치 행렬로 인해 쓸모없는 해가 발생하는 것을 방지하기 위해 가중치 감쇄를 적용하거나 가중치 행렬의 열들의 노름에 제약을 가하는 것이 일반적입니다.
플랴크 평균법의 개념 및 특징
플랴크 평균법은 최적화 알고리즘이 매개변수 공간을 거쳐간 자취에 있는 여러 점의 평균을 구하는 방법입니다. 경사 하강법을 t회 반복하여 방문한 매개변수 공간의 점들이 있다면, 플랴크 평균화 알고리즘은 이 공간들의 점들의 평균을 구합니다.
볼록 함수 문제에 경사 하강법을 적용하는 등 일부 문제에서 이 접근 방식은 강한 수렴 보장성을 제공합니다. 신경망에 이 방법을 적용할 때의 유효성은 조금 발견적인 면이 있지만, 실제 응용에서 잘 작동하는 것으로 알려져 있습니다.
이 방법의 기본 아이디어는 최적화 알고리즘이 계곡 바닥 근처의 점에 도달하지 못하고 계곡 양쪽을 여러 번 왕복하는 상황을 방지하기 위해, 계곡 양쪽의 모든 점을 평균화하여 계곡 바닥과 가까워지려는 것입니다.
비볼록 문제에서는 최적화 알고리즘이 매개변수 공간을 지나는 경로가 아주 복잡하고 여러 영역을 거쳐 갈 수 있습니다. 먼 과거에 지나간 현재의 점과는 큰 장애물로 분리되어 있는 매개변수 공간의 점들을 비용 함수의 평균에 포함하는 것은 유용하지 않을 수 있습니다. 따라서 비볼록 문제에 플랴크 평균법을 적용할 때는 지수적으로 감소하는 이동 평균을 사용하는 것이 일반적입니다. 이렇게 함으로써 먼 과거의 점들의 영향을 줄이고 최근의 점들에 더 많은 가중치를 부여할 수 있습니다.
결론
따라서, 최적화 기법은 구체적인 알고리즘 자체가 아니라, 구체적인 알고리즘을 만들거나 기존 알고리즘에 적용할 수 있는 일반적인 틀을 의미합니다. 배치 정규화는 심층 신경망의 최적화 분야에서 중요한 혁신으로, 재매개변수화 방법 중 하나로 개발되었습니다. 이는 신경망의 훈련 과정에서 발생할 수 있는 문제를 해결하기 위한 방법으로, 활성화 값들의 미니배치를 포함하는 설계 행렬을 사용하여 정규화합니다. 이러한 배치 정규화는 실제 응용에서 신경망의 성능을 향상시키는 데 중요한 역할을 합니다.