본문 바로가기
카테고리 없음

인공지능 조기 종료 전략

by 타로101 2024. 3. 22.

과제를 위해 과대적합이 발생할 정도로 큰 모형을 훈련할 때, 훈련 오차는 시간이 지나면서 줄어들지만 오차는 특정 지점부터 증가하는 현상이 자주 발생합니다.

 

인공지능
인공지능

 

조기 종료 전략의 기본 원리

이러한 현상을 역으로 생각하면, 검증 집합 오차가 가장 낮은 지점에서의 매개변수 값을 찾아야 더 좋은 모형을 얻을 수 있습니다. 이런 훈련 알고리즘은 검증 집합의 오차가 개선될 때마다 해당 지점의 모형 매개변수를 기록합니다. 알고리즘이 종료될 때는 기록된 최상의 매개변수 값을 반환하며, 일정 횟수의 반복 후에도 더 좋은 검증 오차가 나오지 않으면 알고리즘을 종료합니다. 이 방법을 '조기 종료'라 하며, 딥러닝에서 가장 흔히 사용되는 형태의 정칙화 전략 중 하나입니다. 이 방법은 간단하면서도 효과적으로 많이 사용됩니다.

 

조기 종료의 초매개변수 선택 알고리즘

조기 종료 전략은 효율적인 초매개변수 선택 알고리즘으로 볼 수 있습니다. 이 관점에서, 훈련 알고리즘의 반복 횟수는 또 다른 초매개변수로 간주할 수 있습니다. 대부분의 초매개변수에 따른 검증 집합의 성능은 U자 곡선 형태를 보입니다. 조기 종료는 모형의 유효 수용력을 제어하기 위해 필요한 반복 횟수를 설정하여 이러한 초매개변수를 조절합니다.
초매개변수 선택은 보통 값비싼 추측과 점검 과정이 있어야 합니다. 즉, 초매개변수를 특정 값으로 설정하고 훈련 알고리즘을 여러 번 실행하여 효과성을 점검하는 과정을 반복해야 합니다. 훈련 시간 초매개변수의 특징은 한 번의 훈련 동안 여러 초매개변수 값을 시도할 수 있다는 점입니다. 조기 종료를 사용하여 이러한 초매개변수를 자동으로 선택하는 주요 비용은 주기적으로 훈련 도중 검증 집합을 평가하는 데 드는 비용뿐입니다.
이상적으로는 주기적 평가를 별도의 컴퓨터나 동일 컴퓨터의 개별 CPU 또는 GPU에서 병렬로 수행하는 것이 좋습니다. 이러한 조건이 되지 않는 경우, 훈련 집합보다 작은 검증 집합을 사용하거나 검증 집합을 덜 자주 평가함으로써 주기적 평가의 비용을 줄일 수 있습니다.

 

조기 종료의 추가 비용

조기 종료 전략의 추가 비용 중 하나는 최상의 매개변수들의 복사본을 관리하는 데 드는 비용입니다. 그러나 이런 매개변수 값들은 느리고 용량이 큰 저장소에 저장되어도 되기 때문에 일반적으로 이 비용은 무시할 수 있습니다. 훈련 과정에서 최상의 매개변수를 간헐적으로 기록만 하고 읽어 들이는 일은 없기 때문에, 이러한 간헐적이고 느린 쓰기 연산들은 총 훈련 시간에 거의 영향을 미치지 않습니다.

 

조기 종료의 특성과 비교

조기 종료는 바탕 훈련 절차나 목적 함수에서 허용되는 매개변숫값의 집합을 크게 수정할 필요가 없어 비개입적인 형태의 정칙화입니다. 이러한 특성 덕분에 실행 시점에서의 학습 과정에 악영향을 주지 않고 쉽게 조기 종료를 적용할 수 있습니다. 반면, 가중치 감쇄 전략에서는 가중치 감쇄를 너무 강하게 적용하면 신경망이 나쁜 극소점에 갇힐 위험이 있어, 가중치가 쓸모없이 작아지는 해에 도달할 수 있습니다.

 

조기 종료의 훈련 전략

조기 종료를 위해 검증 집합이 필요하며, 초기 훈련 후 모든 훈련 자료를 활용하여 추가 훈련을 진행하는 것이 효과적입니다. 두 가지 주요 전략은 다음과 같습니다:
1. 첫 번째 전략은 모형을 다시 초기화하고 모든 자료로 다시 훈련하는 것입니다. 이때, 첫 번째 훈련에서 조기 종료로 결정된 최적의 반복 횟수를 사용합니다. 훈련 시간 대신 매개변수 갱신 횟수를 기준으로 훈련 절차를 결정할 수 있으며, 더 큰 자료 집합으로 인해 매개변수를 더 자주 갱신합니다.
2. 두 번째 전략은 첫 훈련에서 얻은 매개변수를 그대로 사용하여 모든 자료에 대해 추가 훈련을 진행하되, 훈련 절차의 종료는 검증 집합의 평균 손실을 기준으로 합니다. 이 방법은 비용이 적게 들지만, 훈련이 완벽하지 않을 수 있습니다. 따라서 종료가 보장되지 않습니다.
조기 종료는 훈련 절차의 계산 비용을 줄이는 데 효과적입니다. 훈련 반복 횟수가 제한되므로 비용이 감소하는 것은 물론, 비용 함수에 벌점 항을 추가하거나 그 기울기를 계산하지 않아도 정칙화가 적용되어 비용이 감소합니다.

 

결론

결론적으로, 조기 종료는 과대적합을 줄이고 모델의 일반화 성능을 향상하는 데 효과적인 정칙화 전략 중 하나로, 검증 집합 오차가 가장 낮은 지점에서의 매개변수 값을 찾아 모델을 조기에 종료함으로써 사용됩니다. 이는 훈련 과정의 계산 비용을 줄이는 데 도움이 되며, 훈련 시간을 단축하고 모델의 일반화 능력을 향상하는 데 기여합니다.