본문 바로가기
카테고리 없음

인공지능 드롭아웃을 이용한 앙상블 효율화

by 타로101 2024. 3. 24.

드롭아웃은 계산 비용이 적으면서도 광범위한 모형의 정칙화를 가능하게 하는 방법으로, 큰 신경망들의 앙상블에 현실적으로 배깅을 적용할 수 있게 합니다. 일반적으로 앙상블은 5에서 10개의 신경망으로 구성되는데, 신경망이 10개를 초과하면 불안정해집니다. 드롭아웃은 지수적으로 많은 신경망으로 구성된 앙상블을 작은 비용으로 훈련하고 평가할 수 있는 방법을 제공합니다.

 

인공지능
인공지능

 

드롭아웃 기법의 구체적인 적용

드롭아웃 기법은 기반 신경망에서 비출력 단위를 제거하여 가능한 모든 부분망으로 구성된 앙상블을 훈련합니다. 대부분의 현대적 신경망에서는 한 단위의 출력값에 0을 곱하면 해당 단위가 신경망에서 제거되는 효과가 있습니다. 그러나 일부 모형, 예를 들면 방사상 기저함수 신경망 같은 경우에는 단위를 제거하기 위해 모형을 약간 수정해야 할 수도 있습니다.

 

드롭아웃과 배깅의 차이점

배깅을 적용한 학습에서는 k개의 서로 다른 모형을 정의하고, 기본 훈련 집합을 복원 추출하여 k개의 서로 다른 자료 집합으로 만든 후 각 모형을 훈련합니다. 드롭아웃의 목적은 이러한 과정을 지수적으로 많은 신경망으로 근사하는 것입니다. 드롭아웃을 사용한 훈련은 미니배치 기반 학습 알고리즘을 사용하며, 각 미니배치에 대해 무작위로 이진 마스크를 추출하여 신경망의 모든 입력 단위와 은닉 단위에 적용합니다. 마스크값이 1이면 해당 단위는 부분망에 포함되며, 이 확률은 훈련 시작 전에 결정되는 상수입니다. 일반적으로 입력 단위가 부분망에 포함될 확률로는 0.8, 은닉 단위가 포함될 확률로는 0.5를 사용합니다. 마스크를 적용한 후 순전파, 역전파, 학습 갱신 절차를 평소와 동일하게 수행합니다.

 

드롭아웃과 배깅의 알고리즘 비교

드롭아웃 훈련과 배깅 훈련은 다르며, 주요 차이점은 매개변수 공유에 있습니다. 배깅에서는 각 모형이 독립적이지만, 드롭아웃에서는 모형들이 부모 신경망의 매개변수를 공유합니다. 드롭아웃의 각 모형은 부모 신경망의 매개변수의 부분집합을 상속받지만, 이 부분집합은 모형마다 다릅니다. 이런 매개변수 공유 덕분에 드롭아웃은 지수적으로 많은 모형을 현실적인 메모리 크기로 표현할 수 있습니다.
배깅에서는 각 모형을 대표 훈련 집합에 대해 수렴하도록 훈련하지만, 드롭아웃에서는 대부분의 모형을 훈련하지 않습니다. 실제로 모든 가능한 부분망을 추출하려면 기하급수적으로 많은 모형이 필요하므로, 드롭아웃은 한 단계에서 가능한 부분망의 극히 일부만을 훈련하며 매개변수 공유로 인해 다른 부분망들도 적절한 매개변수 값을 가지게 됩니다.
그 외에는 드롭아웃 알고리즘과 배깅 알고리즘이 유사합니다. 예를 들어, 각 부분망이 만나는 훈련 집합은 원래의 훈련 집합에서 복원 추출한 부분집합을 사용합니다.

 

드롭아웃의 추론 방식

배깅된 앙상블에서는 각 구성원의 예측값을 누적하여 최종 예측값을 얻습니다. 이 과정을 추론이라고 합니다. 여기서 앙상블의 예측값은 모든 확률 분포의 산술 평균으로 계산될 수 있습니다. 반면에 드롭아웃에서는 각 부분 모형이 마스크 벡터로 정의되어 하나의 확률 분포를 출력합니다.

 

드롭아웃의 효율적인 계산 방법

드롭아웃에서는 지수적으로 많은 항을 포함하기 때문에 실제로 모든 항을 계산하는 것은 비현실적입니다. 심층 신경망을 충분히 단순화하여 이 계산을 가능하게 하는 방법은 없습니다. 따라서 드롭아웃은 모든 항을 직접 계산하는 대신 표본추출을 통해 추론을 근사합니다. 드롭아웃은 선택된 여러 마스크로부터의 부분모형들의 평균을 근삿값으로 제시합니다.

 

가중치 비례 추론 규칙

이보다 더 효율적인 접근 방식은 순전파 1회의 비용만 추가하여 전체 앙상블의 예측을 더욱 잘 근사합니다. 이 방법의 핵심은 앙상블 구성원들의 예측 분포의 산술 평균 대신 기하평균을 산출하는 것입니다.
그러나 이러한 확률분포의 기하평균이 반드시 유효한 확률분포가 되는 것은 아닙니다. 기하평균의 결과가 유효한 확률분포가 되려면 모든 부분 모형이 확률 0을 출력해서는 안 된다는 제약을 따라야 합니다. 드롭아웃의 핵심 아이디어는 모든 단위를 포함하되, 가중치들을 적절히 수정하는 하나의 모형에서 확률분포를 평가함으로써 앙상블 자체를 근사할 수 있다는 것입니다. 가중치를 이런 방식으로 수정하는 목적은 해당 단위가 출력하는 값의 정확한 기댓값을 반영하게 하는 것입니다. 이러한 방식을 가중치 비례 추론 규칙이라고 합니다.

 

드롭아웃의 특별한 통찰

드롭아웃의 핵심적인 통찰 중 하나는 확률적인 방식으로 신경망을 훈련하고 여러 확률적 결정들의 평균으로 예측값을 산출하는 것이 매개변수를 공유하는 배깅의 일종이라는 점입니다. 드롭아웃의 위력 중 상당 부분은 은닉 단위들에 마스킹 잡음을 적용하는 것에서 비롯됩니다. 이는 입력의 원본 값을 파괴하는 것이 아니라, 입력에 포함된 정보를 고도로 지능적이고 적응적인 방식으로 파괴하는 것이라고 할 수 있습니다.

 

결론

드롭아웃은 신경망의 정칙화를 효과적으로 이끌어내는 방법으로, 매개변수를 공유하면서도 지수적으로 많은 모형을 현실적인 메모리 크기로 표현할 수 있습니다. 이는 앙상블 학습을 효율적으로 수행하며, 확률적 방식으로 신경망을 훈련하고 여러 결정의 평균을 통해 예측값을 얻는 것으로 볼 때, 드롭아웃은 매개변수를 공유하는 배깅의 일종으로 이해될 수 있습니다. 드롭아웃은 입력의 정보를 파괴하는 것이 아니라, 정보를 고도로 지능적이고 적응적인 방식으로 파괴하여 학습을 이끌어냅니다.