본문 바로가기
카테고리 없음

인공지능 선형 단위의 선택과 특성

by 타로101 2024. 3. 17.

정류 선형 단위는 기본적으로 적합한 출력 단위이지만, 다른 단위도 있으며 선택이 어려울 수 있습니다. 직관은 선택을 돕지만 예측이 어려울 때가 많습니다. 신경망 설계는 시행착오의 과정이며, 직관적으로 선택한 출력 단위를 사용하여 신경망을 훈련하고 성능을 평가하는 과정을 반복합니다.

 

인공지능
인공지능

 

정류 선형 단위의 특성과 이점

정류 선형 단위는 활성화 함수를 사용하며, 선형 단위와 유사하지만 최적화하기 쉽습니다. 이 단위는 정의역의 절반에서 항상 0을 출력하여 미분값이 크고 일관된 값임. 또한, 정류 연산의 이차도함수는 대부분의 점에서 0이고 도함수는 활성화된 점에서 항상 1이므로 학습에 유용합니다.
실제 응용에서, 어파인 변환의 매개변수를 초기화할 때 모든 성분을 작은 양수로 설정하는 것이 일반적으로 권장됩니다. 이렇게 하면 정류 선형 단위가 훈련 집합의 모든 입력에 대해 초기부터 활성화되고, 따라서 해당 미분들이 다음 층으로 전달될 가능성이 크게 증가합니다.

 

다양한 일반화된 은닉 단위들

여러 개의 일반화된 은닉 단위들이 있으며, 대부분은 정류 선형 단위와 유사한 성능을 제공하지만, 더 나은 성과를 내는 것들도 있습니다.
정류 선형 단위의 한 가지 단점은 활성화가 0인 샘플들로는 기울기 기반 방법으로 학습할 수 없다는 것입니다. 이러한 단점을 극복하고 모든 점에서 기울기가 산출되도록 정류 선형 단위를 개선한 일반화된 버전이 존재합니다.
정류 선형 단위의 세 가지 일반화 중 하나는 값이 0보다 작을 때 0이 아닌 기울기를 활용하는 아이디어에 기반합니다. 절댓값 정류 단위는 -1로 고정되어 절댓값이 되도록 설계되었으며, 이미지에서 물체를 인식하는 신경망에 적용됩니다. 이러한 응용에서는 입력 조명의 극성이 반전되어도 영향을 받지 않는 특성을 고려해야 하므로 절댓값 정류 단위가 적합합니다. 다른 두 일반화는 보다 광범위한 분야에 적용할 수 있습니다. 누출 ReLU는 작은 값(예: 0.01)으로 고정하고, 매개변수적 ReLU는 학습할 수 있는 매개변수를 가집니다.

 

맥스아웃 단위의 활용과 장점

맥스아웃 단위는 정류 선형 단위를 앞의 세 가지보다 더욱 일반화합니다. 맥스아웃 단위를 사용하는 은닉층은 입력에 대해 성분별 함수를 적용하는 대신, 입력을 k개의 값으로 이루어진 그룹들로 분할합니다. 그런 다음 각 맥스아웃 단위는 각 그룹의 최대 성분을 출력합니다.

 

맥스아웃 단위의 학습과 일반화

맥스아웃 단위들로 구성된 은닉층은 최대 k개의 조각을 가진 선형 볼록함수를 학습할 수 있습니다. 따라서 맥스아웃 층은 활성화 함수를 학습하는 도구로 볼 수 있습니다. k가 충분히 크면 맥스아웃 층은 임의의 볼록함수를 임의의 정밀도로 학습할 수 있습니다. 특히, 두 개의 조각을 가진 맥스아웃 층은 기존의 은닉층과 동일한 입력 함수를 구현하는 방법뿐만 아니라 완전히 다른 함수를 구현하는 방법도 배울 수 있습니다. 맥스아웃 층의 매개변수화는 다른 은닉층들의 매개변수화와는 다르며, 따라서 맥스아웃 층이 다른 은닉층과 동일한 입력 함수를 학습하는 경우에도 학습 과정이 다를 수 있습니다.
각 맥스아웃 단위는 하나가 아니라 k개의 가중치 벡터로 매개변수화되므로 대체로 맥스아웃 단위들에는 일반적인 정류 선형 단위보다 더 많은 정칙화가 필요합니다. 그러나 훈련 집합이 크고 단위당 조각 개수가 적다면 정칙화 없이도 잘 작동할 수 있습니다.
맥스아웃 단위에는 그 외에도 몇 가지 장점이 있습니다. 필요한 매개변수를 줄일 수 있는 경우에는 통계적 장점과 계산 비용상의 이점이 생기기도 합니다. 구체적으로, n개의 서로 다른 선형 필터로 학습하는 다수의 특징을 맥스아웃 단위를 이용하여 각각 k개의 특징으로 이루어진 그룹에서 최대 성분을 취하여 요약할 수 있다면, 그다음 층이 받는 가중치의 개수가 k 분의 1로 줄어들게 됩니다.

 

맥스아웃 단위의 특징과 파국적 망각에 대한 저항력

하나의 맥스아웃 단위는 여러 개의 필터로 작동하기 때문에 각 맥스아웃 단위에는 일정한 중복성이 존재합니다. 이러한 중복성은 파국적 망각이라는 현상에 저항하는 데 도움이 됩니다. 파국적 망각은 신경망이 과거에 학습한 작업을 잊어버리는 것을 말합니다. 이러한 중복성은 신경망이 과거에 학습한 정보를 더욱 효과적으로 보존하고 새로운 정보를 배우는 데 도움이 됩니다.

 

정류 선형 단위와 다양한 모델 아키텍처

정류 선형 단위와 그의 일반화들은 모델의 행동이 선형 모델에 가까울수록 모델을 최적화하기 쉽다는 원리에 기초합니다. 이러한 원리는 심층 선형 신경망 이외의 다른 맥락에서도 적용될 수 있습니다. 예를 들어, 순환 신경망은 순차적인 데이터를 학습하고 상태 및 출력 순서를 생성합니다. 순환 신경망을 훈련할 때는 정보가 몇 시간 단계를 거쳐 전파되어야 하지만, 선형 계산이 관련되면 이러한 전파가 간단해집니다. LSTM과 같은 성능이 우수한 순환 신경망 아키텍처는 정보를 시간에 따라 합산하여 전파합니다. 이 합산은 특히 간단한 선형 활성화 연산에 해당합니다.

 

결론

결론적으로, 출력 단위를 선택할 때 정류 선형 단위가 기본적으로 적합하지만, 다른 선택지도 있으며 선택은 어려울 수 있습니다. 신경망 설계는 시행착오의 과정이며, 직관적으로 선택한 출력 단위를 사용하여 신경망을 훈련하고 성능을 평가하는 과정을 반복해야 합니다. 또한, 맥스아웃 단위는 일반적인 정류 선형 단위보다 더욱 일반화되어 있고, 파국적 망각에 저항력을 가지며 특정 모델 아키텍처에서 선형 계산이 관련된 경우 특히 유용합니다.