본문 바로가기
카테고리 없음

인공지능 합성곱 신경망과 풀링의 구조

by 타로101 2024. 4. 6.

합성곱 신경망의 한 층은 세 단계로 구성됩니다. 첫 번째 단계에서는 병렬로 합성곱을 수행하여 선형 활성화 값을 얻습니다. 두 번째 단계에서는 선형 활성화 값을 비선형 활성화 함수로 처리하여 검출기 단계를 거칩니다. 마지막으로, 세 번째 단계에서는 풀링 함수를 사용하여 출력을 수정합니다.

 

인공지능
인공지능

 

풀링 함수의 작동 원리

풀링 함수는 신경망의 출력을 근처 출력의 요약통계량으로 대체합니다. 최댓값 풀링은 직사각형 영역 내에서 가장 큰 값을 사용하며, 평균이나 노름, 가중 평균 등 다른 풀링 방법도 사용됩니다.

 

풀링의 불변성과 효율성

풀링은 입력의 작은 이동에 대해 근사적으로 불변성을 제공하여 특징의 위치에 대한 불변성을 확보합니다. 이는 입력을 약간 이동해도 풀링된 출력값이 대부분 변하지 않는 것을 의미합니다. 특징의 구체적인 위치보다는 특징의 존재 여부가 중요한 경우, 이러한 국소 이동에 대한 불변성은 유용합니다. 예를 들어, 사람 얼굴인 눈의 위치보다 눈의 존재 여부가 중요합니다. 그러나 특징의 위치를 정확하게 보존해야 하는 경우도 있습니다. 예를 들면, 두 윤곽선이 특정 방향으로 만나는 모퉁이를 찾을 때, 변들의 위치를 정확히 파악해야 합니다.

 

풀링의 효율성과 메모리 요구량

풀링을 적용하는 것은 신경망이 작은 이동에 대해 불변해야 한다는 강력한 사전분포를 추가하는 것으로 볼 수 있습니다. 이러한 불변성 가정이 실제로 유효한 경우, 신경망의 통계적 효율성이 크게 향상될 수 있습니다.
공간 영역에 대한 풀링은 신경망의 이동에 대한 불변성을 도입합니다. 또한, 각각의 매개변수화된 합성곱 연산의 출력에 풀링을 적용하면 특징들이 어떤 변화에 대해 불변해야 하는지 학습할 수 있습니다.
풀링은 이웃한 단위의 반응을 요약하므로 픽셀 k개를 포함하는 풀링 영역의 요약통계량을 사용하면 검출기 단위보다 더 적은 수의 풀링 단위를 사용할 수 있습니다. 이에 따라 다음 층이 처리해야 할 입력의 수가 약 k 분의 1로 감소하므로 신경망의 계산 효율성이 향상됩니다. 만약 다음 층의 매개변수 개수가 입력 크기에 비례한다면, 이런 입력 크기의 감소는 통계적 효율성 향상과 메모리 요구량 감소로 이어집니다.

 

다양한 입력 크기 처리를 위한 풀링

여러 학습 과제에서 다양한 크기의 입력을 처리해야 할 때 풀링은 필수적입니다. 예를 들어, 다양한 크기의 이미지를 분류할 때는 분류 층의 입력이 고정된 크기이어야 합니다. 이 문제를 해결하는 방법의 하나는 풀링 영역들 사이의 간격을 입력 이미지에 맞춰 변경하여 분류 층이 항상 같은 개수의 요약통계량을 받도록 하는 것입니다. 예를 들어, 신경망의 마지막 풀링 층이 입력 이미지의 크기와 무관하게 항상 네 개의 요약통계량 집합을 출력하도록 설계할 수 있습니다.

 

풀링의 다양한 적용 방법

다양한 상황에서 어떤 종류의 풀링을 사용할 것인지에 대한 지침을 제공하는 이론적 연구 결과도 있습니다. 여러 특징을 동적으로 함께 풀링하는 것도 가능합니다. 예를 들어, 특징들의 위치에 대한 군집화 알고리즘을 실행하여 풀링을 적용할 수 있습니다. 이러한 접근 방식에서는 풀링 영역이 이미지마다 다르게 형성됩니다. 또 다른 방법으로는 하나의 풀링 구조를 학습한 후 이를 모든 이미지에 적용하는 것이 있습니다.

 

사전확률분포와 사전분포

사전확률분포, 줄여서 사전분포라고 하며, 모델의 매개변수에 대한 확률분포입니다. 이는 우리가 관측하기 전에 가지고 있던 바람직한 모델에 대한 믿음을 확률분포 형태로 부호화한 것입니다. 다시 말해, 주어진 과제에 대한 바람직한 모델에 대한 우리의 사전 믿음을 확률분포로 나타낸 것입니다.

 

강한 사전분포와 약한 사전분포

사전분포의 확률밀도가 얼마나 조밀한지에 따라 사전분포를 "강하다" 또는 "약하다"라고 표현합니다. 약한 사전분포는 엔트로피가 높은 사전분포를 의미합니다. 예를 들어, 분산이 큰 가우스 분포가 약한 사전분포에 해당합니다. 이런 사전분포를 사용하면 훈련 데이터가 매개변수를 상대적으로 자유롭게 이동하게 됩니다.
강한 사전분포는 엔트로피가 매우 낮은 사전분포를 의미합니다. 예를 들어, 분산이 작은 가우스 분포가 강한 사전분포에 해당합니다. 이런 사전분포는 매개변수의 최종값을 결정하는 데 더 능동적인 역할을 합니다.

 

합성곱 신경망과 사전분포

합성곱 신경망은 완전 연결 신경망과 유사하게 볼 수 있지만, 그 가중치들에 무한히 강한 사전분포가 적용된 신경망으로 이해할 수 있습니다. 이러한 강한 사전분포는 한 은닉 단위의 가중치들이 공간적으로 이웃하는 가중치들과 유사해야 한다는 제약을 부여합니다. 또한, 이 사전분포는 은닉 단위에 할당된 작고 연속적인 수용 영역 외의 영역에서는 가중치가 반드시 0이어야 한다는 것을 의미합니다.
요약하면, 합성곱을 사용하는 것은 신경망의 한 층에 대한 무한히 강한 사전분포를 도입하는 것이며, 이 사전분포는 그 층이 학습해야 하는 함수에는 국소적인 상호작용만 존재하고, 그 함수가 이동에 대해 불변해야 함을 나타냅니다. 마찬가지로, 풀링을 사용하는 것은 각 단위가 작은 이동에 대해 불변해야 한다는 강한 사전분포를 도입하는 것입니다.
물론, 합성곱 신경망을 무한히 강한 사전분포가 있는 완전 연결 신경망으로 직접 구현하는 것은 계산비용이 매우 높아지기 때문에 비효율적입니다. 그러나, 합성곱 신경망을 이런 관점에서 고찰하면, 합성곱 신경망의 작동 방식에 대한 통찰을 얻을 수 있습니다. 이러한 관점은 합성곱 신경망이 공간적인 특성을 고려하여 효율적으로 특징을 학습하는 방식을 이해하는 데 도움을 줄 수 있습니다.

 

합성곱과 풀링의 과소적합 위험

핵심적인 통찰 중 하나는 합성곱과 풀링이 과소적합을 유발할 수 있다는 것입니다. 사전분포의 가정이 실제로 어느 정도 성립할 때만 합성곱과 풀링이 유용하다는 점을 이해해야 합니다. 예를 들어, 정확한 공간 정보를 유지해야 하는 작업에서 모든 특징에 풀링을 적용하면 훈련 오차가 증가할 수 있습니다.
따라서, 일부 합성곱 신경망 아키텍처에서는 특징들의 불변성을 높이면서도 이동 불변성의 가정이 성립하지 않아도 특징들에 대한 과소적합을 방지하기 위해 일부 채널에만 풀링을 적용하고, 다른 채널에는 풀링을 적용하지 않는 방법을 사용합니다. 이렇게 함으로써 합성곱 신경망은 특징의 다양한 측면을 학습할 수 있게 되며, 공간적 정보를 효과적으로 활용할 수 있습니다.

 

결론

합성곱 신경망은 세 가지 단계로 이루어져 있습니다: 합성곱, 비선형 활성화, 그리고 풀링. 풀링은 근처 출력의 요약통계량을 사용하여 입력의 이동에 대한 근사적 불변성을 제공하며, 이는 계산 효율성을 높일 뿐만 아니라 다양한 입력 크기를 처리할 수 있게 합니다. 이러한 합성곱과 풀링은 강한 사전분포를 도입하여 특징들의 불변성을 유지하고, 과소적합을 방지합니다. 따라서, 이러한 기법은 신경망이 효율적으로 특징을 학습하고 공간적 정보를 활용할 수 있도록 돕습니다.