본문 바로가기

전체 글52

인공지능 신경망 최적화와 문제점 층이 많은 신경망의 비용함수 공간에는 가파른 영역이 있어, 큰 가중치들이 함께 곱해져 이런 영역이 생성됩니다. 이 가파른 영역에서는 기울기 갱신 시 매개변수들이 크게 변해 절벽을 완전히 뛰어넘기 쉽습니다.  기울기 절단 기법과 신경망 최적화기울기 절단 기법은 기울기가 최적의 단계 크기를 나타내는 것이 아니라 무한소 영역 안에서의 최적의 방향을 나타낸다는 핵심을 가지고 있습니다. 전통적인 경사 하강법에서 큰 갱신 단계를 적용할 때 발생하는 문제를 기울기 절단으로 완화할 수 있습니다. 이 기법은 가파른 하강 방향을 벗어나는 가능성을 줄입니다. 순환 신경망의 비용함수에서 절벽 구조는 자주 나타나며, 이는 순차적인 곱셈으로 인해 극히 큰 값이 발생하기 때문입니다. 계산 그래프의 깊이와 신경망 최적화계산 그래프의.. 2024. 3. 29.
인공지능 고차원 비볼록함수와 안장점 고차원 비볼록함수에서는 극소점이 안장점과 비교하여 드물며, 안장점 주변에는 비용이 큰 점과 작은 점이 혼재합니다. 안장점에서 헤세 행렬은 양과 음의 고윳값을 가지며, 양의 고윳값과 연관된 방향의 점은 비용이 많이 들고, 음의 고윳값과 연관된 방향의 점은 비용이 적습니다. 따라서 안장점은 비용함수의 한 단면에서의 극소점과 다른 단면에서 극대점이 일치하는 점으로 생각됩니다.  확률함수의 극소점과 안장점확률함수에서 저 차원 공간에서는 극소점이 흔하지만, 고차원 공간에서는 극소점보다 안장점이 더 흔하며, 안장점 대비 극소점의 비율은 n의 거듭제곱으로 증가합니다. 극소점에서의 헤세 행렬은 양의 고윳값만을 가지지만, 안장점에서는 양과 음의 고윳값이 혼합되어 있습니다. 이 현상은 각 고윳값의 부호가 동전 던지기로 결.. 2024. 3. 28.
인공지능 신경망 최적화와 볼록함수의 문제점 최적화는 어려운 과제이며, 기계 학습에서는 볼록함수를 대상으로 설계하여 일반적으로 어려움을 피하려고 했습니다. 그러나 신경망 훈련 시 비볼록 상황으로 마주치며, 볼록함수 최적화 역시 쉽지 않습니다.  볼록함수 최적화의 문제점볼록함수를 최적화할 때도 어려움이 있으며, 그중의 가장 큰 문제는 해세행렬의 불량조건입니다. 이는 볼록함수뿐만 아니라 대부분의 수치 최적화에서 일반적으로 발생하는 문제입니다. 신경망 훈련에서의 불량조건과 최적화 알고리즘신경망 훈련에서도 이러한 불량조건이 존재한다고 믿는 사람들이 많습니다. 불량조건이 있으면 확률적 경사 하강법이 문제가 될 수 있습니다. 불량조건은 신경망 외의 다른 상황에서도 발생하는데, 그런 상황들에 사용되는 기법 중 일부는 신경망에서는 효과가 없습니다. 예를 들어, .. 2024. 3. 28.
인공지능 심층 모형 최적화 딥러닝 알고리즘에서는 다양한 형태의 최적화가 필요하다. PCA와 같은 모형에서 추론을 위해서도 최적화가 필요하며, 해석적 최적화는 알고리즘 설계나 증명에 사용된다. 신경망 훈련은 딥러닝의 최적화 문제 중에서 가장 어렵고, 이를 해결하기 위해 수백 대의 컴퓨터를 며칠에서 수개월 동안 사용하는 것이 일반적이다. 이러한 문제를 해결하기 위한 특화된 최적화 기법이 개발되었다.  심층 모형의 훈련과 최적화심층 모형의 훈련에 사용되는 최적화 알고리즘은 전통적인 최적화 알고리즘과 다릅니다. 기계 학습은 대체로 간접적으로 작용하며, 대부분의 시나리오에서는 비용 문제로 시험 집합을 기준으로 한 성과 측도를 평가하는 것이 현실적으로 어려울 수 있습니다. 기계 학습 알고리즘의 주요 목표는 평균 일반화 오차, 즉 위험도를 줄.. 2024. 3. 26.
인공지능 드롭아웃을 이용한 앙상블 효율화 드롭아웃은 계산 비용이 적으면서도 광범위한 모형의 정칙화를 가능하게 하는 방법으로, 큰 신경망들의 앙상블에 현실적으로 배깅을 적용할 수 있게 합니다. 일반적으로 앙상블은 5에서 10개의 신경망으로 구성되는데, 신경망이 10개를 초과하면 불안정해집니다. 드롭아웃은 지수적으로 많은 신경망으로 구성된 앙상블을 작은 비용으로 훈련하고 평가할 수 있는 방법을 제공합니다.  드롭아웃 기법의 구체적인 적용드롭아웃 기법은 기반 신경망에서 비출력 단위를 제거하여 가능한 모든 부분망으로 구성된 앙상블을 훈련합니다. 대부분의 현대적 신경망에서는 한 단위의 출력값에 0을 곱하면 해당 단위가 신경망에서 제거되는 효과가 있습니다. 그러나 일부 모형, 예를 들면 방사상 기저함수 신경망 같은 경우에는 단위를 제거하기 위해 모형을 약.. 2024. 3. 24.
인공지능 조기 종료 전략 과제를 위해 과대적합이 발생할 정도로 큰 모형을 훈련할 때, 훈련 오차는 시간이 지나면서 줄어들지만 오차는 특정 지점부터 증가하는 현상이 자주 발생합니다.  조기 종료 전략의 기본 원리이러한 현상을 역으로 생각하면, 검증 집합 오차가 가장 낮은 지점에서의 매개변수 값을 찾아야 더 좋은 모형을 얻을 수 있습니다. 이런 훈련 알고리즘은 검증 집합의 오차가 개선될 때마다 해당 지점의 모형 매개변수를 기록합니다. 알고리즘이 종료될 때는 기록된 최상의 매개변수 값을 반환하며, 일정 횟수의 반복 후에도 더 좋은 검증 오차가 나오지 않으면 알고리즘을 종료합니다. 이 방법을 '조기 종료'라 하며, 딥러닝에서 가장 흔히 사용되는 형태의 정칙화 전략 중 하나입니다. 이 방법은 간단하면서도 효과적으로 많이 사용됩니다. 조기.. 2024. 3. 22.
인공지능 효과적인 정칙화 전략 기계 학습의 중요한 과제는 알고리즘이 훈련 데이터뿐만 아니라 새로운 입력에 대해서도 효과적으로 동작하도록 만드는 것입니다. 이를 위해 주로 시험 오차의 감소를 목표로 하는 전략들이 사용되는데, 때로는 훈련 오차가 증가하더라도 시험 오차를 줄이기 위한 전략들이 채택됩니다. 이러한 전략들을 통틀어 정칙화라고 하며, 딥러닝의 실제 응용에서 사용되는 정칙화 방법은 다양합니다. 효과적인 정칙화 전략을 개발하는 것은 이 분야의 중요한 연구 과제 중 하나입니다.  정칙화의 의미와 방법정칙화는 훈련 오차가 아니라 일반화 오차를 줄이기 위해 학습 알고리즘에 가하는 모든 종류의 수정을 의미합니다. 이러한 전략에는 여러 가지가 있습니다. 예를 들어, 추가적인 제약을 도입하거나 목적 함수에 새로운 항을 추가하는 방법이 있습니.. 2024. 3. 21.
인공지능 신경망과 경사하강법 순방향 신경망은 경사 하강법을 사용하여 함수 근사의 오차를 최소화하는 방법으로 효율적인 비선형 함수 근사 도구로 간주합니다. 이는 현대적인 순방향 신경망이 일반적인 함수 근사 문제에 대해 오랜 기간의 성과를 축적하여 만들어진 결과임을 나타냅니다.  역전파 알고리즘과 경사 하강법의 역사적 배경역전파 알고리즘의 기초인 연쇄법칙은 17세기에 개발되었습니다. 미적분학과 대수학은 과거부터 최적화 문제를 해결하는 데 사용되어 왔으나, 최적화 문제를 반복적으로 근사하는 기법으로 경사 하강법이 도입된 것은 19세기에 이루어졌습니다.신경망 모델의 발전과 초기 한계 극복1940년대부터 이러한 함수 근사 기법들은 퍼셉트론과 같은 기계 학습 모델들에게 영감을 주었습니다. 그러나 초기 모델들은 주로 선형 모델에 의존했습니다. .. 2024. 3. 20.
인공지능 신경망의 역전파 알고리즘 순방향 신경망은 입력받아 출력을 산출하는 과정에서 정보는 앞으로 흘러가며 각 층의 은닉 단위로 전파되고 최종적으로 출력층에서 출력이 생성됩니다. 이 과정을 순전파라고 하며, 훈련 중에 이를 반복하여 비용을 계산합니다. 역전파 알고리즘은 이러한 비용에서 나온 정보를 신경망을 따라 거꾸로 흐르게 하여 기울기를 계산합니다.  역전파 알고리즘의 이해해석적으로 기울기를 계산하는 것은 비교적 수치상으로 평가하는 것은 계산 비용이 많이 들 수 있습니다. 역전파 알고리즘은 간단하면서도 비용이 적게 드는 방법으로 기울기를 계산합니다. 역전파의 범위와 역할역전파 알고리즘이 다층 신경망의 학습 알고리즘이라고 잘못 이해하는 사람들이 있습니다. 실제로 역전파는 단순히 기울기를 계산하는 방법에 불과합니다. 이러한 기울기를 사용하.. 2024. 3. 20.