신경망 설계에서 또 다른 중요한 고려 사항은 아키텍처 선택이다. 아키텍처는 신경망의 전체적인 구조를 결정하는 것으로, 예를 들어 단위 개수나 단위들의 연결 방식 등을 포함한다.
층 기반 아키텍처와 깊이 너비 선택
대부분의 신경망은 층(layer)이라고 불리는 단위들의 집합으로 구성됩니다. 이들 층은 일반적으로 사슬(chain) 구조를 이루며, 각 층은 이전 층의 결과를 입력으로 받아들이는 함수로 작용합니다. 이는 신경망 아키텍처의 일반적인 형태입니다.
사슬 기반 아키텍처에서 신경망의 구조를 결정하는 주된 고려 사항은 신경망의 깊이와 각 층의 너비를 선택하는 것입니다. 보통은 은닉층이 하나만 있어도 훈련 집합에 적합하게 만들 수 있습니다. 그러나 더 깊거나(층이 더 많은) 넓은 신경망은 더 적은 단위와 매개변수를 사용하고 시험 집합에서 더 잘 일반화되는 경우가 최적화가 어려울 수 있습니다. 이에 따라 주어진 과제에 최적인 신경망 아키텍처를 찾기 위해 검증 집합 오차를 가이드로 하여 실험을 반복적으로 수행해야 합니다.
비선형 함수의 표현과 모델 설계
행렬 곱셈을 통해 특징들을 출력에 대응하는 선형 모형은 선형 함수만 표현할 수 있습니다. 선형 모형은 훈련하기 쉽다는 장점이 있는데, 이는 큰 손실 함수들이 선형 모형에 적용될 때 볼록 함수 최적화 문제로 전환되기 때문입니다. 그러나 학습 시스템이 비선형 함수를 배워야 할 때가 많기 때문에 이는 안타깝습니다.
비선형 함수의 학습을 위해서는 원하는 비선형성에 맞는 특화된 모형을 설계해야 합니다. 은닉층을 포함하는 순방향 신경망은 보편적인 근사 틀을 제공합니다. 보편 근사 정리에 따르면, 선형 출력층과 임의의 압박 활성화 함수를 사용하는 은닉층이 적어도 하나 있는 순방향 신경망은 한 유한 차원 공간을 다른 유한 차원 공간으로 사상하는 모든 보렐 가측함수를 우리가 원하는 정확도로 근사할 수 있습니다. 또한 순방향 신경망의 미분은 해당 함수의 미분을 임의의 정확도로 잘 근사할 수 있습니다. 따라서 닫힌 유계 집합에 대한 모든 연속 함수는 보렐 가측함수이며, 순방향 신경망으로 근사할 수 있습니다. 또한 신경망은 임의의 유한차원 이산 공간을 다른 유한차원 이산 공간으로 사상하는 임의의 함수도 근사할 수 있습니다.
모델 규모와 학습 가능성의 균형
보편 근사 정리는 큰 다중 퍼셉트론으로 어떤 함수든 표현할 수 있음을 의미합니다. 그러나 이 함수를 학습할 수 있는 것은 보장되지 않습니다. 다중 퍼셉트론이 함수를 표현할 수 있더라도, 함수를 학습하지 못하는 이유는 두 가지가 있습니다. 첫째로, 최적화 알고리즘이 원하는 함수에 해당하는 매개변수 값을 찾아내지 못할 수 있습니다. 둘째로, 과대적합으로 인해 훈련 알고리즘이 잘못된 함수를 선택할 수도 있습니다. 순방향 신경망은 함수를 표현하는 하나의 보편적인 체계를 제공하지만, 단순히 주어진 함수를 근사하는 하나의 순방향 신경망이 존재한다는 의미일 뿐입니다. 구체적인 보기들로 이루어진 훈련 집합을 조사해서 그 훈련 집합에 존재하지 않는 점들로까지 일반화되는 함수를 선택하는 보편적인 절차는 없습니다.
보편 근사 정리에 따르면 원하는 정확도로 주어진 함수를 근사할 수 있는 충분히 큰 크기의 신경망이 존재합니다. 그러나 이러한 신경망이 얼마나 큰지에 대해서는 명시하지 않습니다. 최악의 경우, 필요한 은닉 유닛의 개수는 지수적일 수 있습니다. 예를 들어, 이진 함수를 고려해 보면 이를 이해하는 데 도움이 됩니다. 벡터에 대한 모든 이진 함수의 개수는 2^2^n이고, 그중 하나를 선택하는 데 필요한 비트 수는 2^n입니다. 이를 위해서는 일반적으로 O(2^n)의 자유도가 필요합니다.
단층 순방향 신경망은 이론적으로 임의의 함수를 표현하는 데 충분하지만, 층이 너무 크면 학습과 일반화가 어려울 수 있습니다. 많은 경우, 더 깊은 모델을 사용하면 필요한 단위 수가 줄어들고 일반화 오차도 감소합니다.
깊이가 특정 값 이상인 아키텍처를 사용하면 다양한 종류의 함수를 효과적으로 근사할 수 있지만, 깊이를 제한하면 모델의 크기가 크게 증가해야 합니다. 많은 경우, 얕은 모델에 필요한 은닉 유닛의 개수는 입력 차원의 거듭제곱 수준입니다. 이러한 결과들은 연속적인 미분 가능한 신경망들과는 다른 모델들에 대해 증명되었으며, 이후에는 연속적인 미분 가능한 신경망들까지 확장되었습니다. 초기 연구는 논리 게이트 회로에 대한 것이었고, 이후에는 가중치를 가진 선형 임계값 단위로 확장되었으며, 결국에는 연속값 활성화 함수를 사용하는 신경망까지 확장되었습니다.
심층 아키텍처 선택의 통계적 이유
통계적인 이유로 더 깊은 모델을 선호할 수 있습니다. 특정 기계 학습 알고리즘을 선택할 때마다, 우리는 그 알고리즘이 학습해야 할 함수의 종류에 관한 일부 사전 믿음을 암묵적으로 가지게 됩니다. 심층 모델을 선택함으로써, 우리는 학습하려는 함수가 더 단순한 여러 함수의 조합으로 구성된다는 일반적인 믿음을 가리킵니다. 표현 학습의 관점에서, 이러한 믿음은 주어진 학습 문제가 다양한 기저 변동 요인으로 구성되며, 이러한 변동 요인들을 더 간단한 기저 변동 요인으로 설명할 수 있다는 믿음으로 해석될 수 있습니다. 심층 아키텍처를 선택하는 것은 우리가 학습하려는 함수가 여러 단계로 이루어진 하나의 컴퓨터 프로그램이며, 각 단계가 이전 단계의 출력을 사용한다는 믿음을 암묵적으로 나타내는 것으로도 볼 수 있습니다.
결론
결론적으로, 신경망 설계에서 아키텍처 선택은 매우 중요한 요소입니다. 층 기반 아키텍처와 깊이 너비 선택, 비선형 함수의 표현과 모델 설계, 그리고 모델 규모와 학습 가능성의 균형을 고려하여 최적의 아키텍처를 결정해야 합니다. 더 깊은 모델을 선택함으로써 다양한 함수를 효과적으로 근사할 수 있으며, 이는 심층 아키텍처 선택의 통계적 이유 중 하나입니다.