순방향 신경망은 경사 하강법을 사용하여 함수 근사의 오차를 최소화하는 방법으로 효율적인 비선형 함수 근사 도구로 간주합니다. 이는 현대적인 순방향 신경망이 일반적인 함수 근사 문제에 대해 오랜 기간의 성과를 축적하여 만들어진 결과임을 나타냅니다.
역전파 알고리즘과 경사 하강법의 역사적 배경
역전파 알고리즘의 기초인 연쇄법칙은 17세기에 개발되었습니다. 미적분학과 대수학은 과거부터 최적화 문제를 해결하는 데 사용되어 왔으나, 최적화 문제를 반복적으로 근사하는 기법으로 경사 하강법이 도입된 것은 19세기에 이루어졌습니다.
신경망 모델의 발전과 초기 한계 극복
1940년대부터 이러한 함수 근사 기법들은 퍼셉트론과 같은 기계 학습 모델들에게 영감을 주었습니다. 그러나 초기 모델들은 주로 선형 모델에 의존했습니다. 많은 비평가는 이러한 선형 접근법의 한계를 지적했고, 결과적으로 신경망 접근 방식 전반에 대한 관심이 줄어들었습니다.
다중 퍼셉트론과 비선형 함수 근사의 가능성
비선형 함수의 학습은 다층 퍼셉트론이 개발되고 이를 통해 기울기를 계산하는 방법이 등장한 후에야 가능해졌습니다. 1960년대와 1970년대에는 연쇄법칙을 동적 계획법에 기초하여 효율적으로 적용하는 기법들이 등장하기 위해 시작했습니다. 이러한 기법들은 대부분 제어 응용을 위한 것이었지만, 민감도 분석을 위한 기법들도 있었습니다.
신경망 연구의 현대적 발전과 딥러닝의 부활
역전파 알고리즘의 성공으로 시작된 신경망 연구의 인기는 1990년대 초반에 정점에 달았습니다. 이후에는 다른 여러 기계 학습 기법들이 더 인기를 끌었지만, 2006년부터 현대적인 딥러닝을 통해 다층 신경망 접근 방식이 다시 주목받게 되었습니다.
현대적인 순방향 신경망의 핵심 개념과 성능 향상
현대적인 순방향 신경망에 깔린 핵심 개념들은 사실 1980년대에 비해 크게 변하지 않았습니다. 역전파 알고리즘과 경사 하강법 방식이 여전히 사용되고 있습니다. 1986년부터 2015년까지 신경망의 성능 향상을 가능케 한 주요한 요인은 크게 두 가지입니다. 첫째로, 데이터 집합의 크기가 증가함에 따라 신경망의 통계적 일반화를 방해하는 문제가 감소했습니다. 둘째로, 컴퓨터의 처리 능력이 향상되고 소프트웨어 기반 구조가 개선되면서 점점 더 큰 신경망을 실행할 수 있게 되었습니다. 이 외에도 몇 가지 알고리즘의 변경이 신경망의 성능 향상에 기여했습니다.
손실 함수와 활성화 함수의 변화
1980년대와 1990년대에는 주로 평균제곱오차가 손실 함수로 널리 사용되었지만, 이후 통계 및 기계 학습 커뮤니티 간의 의견 교환을 통해 교차 엔트로피 손실 함수로의 전환이 이루어졌습니다. 교차 엔트로피 손실 함수는 S자형 단위와 소프트맥스 출력 단위로 구성된 모델의 성능을 향상하게 합니다. 반면, 평균제곱오차 손실 함수를 사용할 때는 이러한 유형의 단위들을 포함하여 학습이 느려지는 문제가 있었습니다.
정류 선형 단위의 도입과 성능 향상
순방향 신경망의 성능을 크게 향상하게 한 또 다른 중요한 알고리즘 변화는 은닉층에 S자형 은닉 단위 대신 조각별 선형 단위인 정류 선형 단위를 사용하는 것입니다. Max 함수를 사용한 정류는 초기 신경망 모델인 코그니트론과 네오코그니트론에까지 거슬러 올라가는 초기 모델들에 도입되었습니다. 초기 모델들은 비선형 함수에 정류를 적용했지만, 1980년대에는 대부분 S자형 단위로 대체되었습니다. 아마도 그 당시에는 신경망이 매우 작았기 때문에 S자형 단위가 더 잘 작동했을 것입니다. 2000년대 초반에는 정류 선형 단위를 피하는 경우가 많았는데, 미분 불가능한 점이 존재하는 활성화 함수는 반드시 피해야 한다는 다소 미신적인 믿음 때문입니다. 그러나 이러한 상황은 2009년 무렵부터 변하기 위해 시작했습니다.
순방향 신경망의 현재와 미래
2006년에 딥러닝이 현대적인 형태로 부활하기 위해 시작했지만 순방향 신경망의 평판은 여전히 좋지 않았습니다. 약 2006년부터 2012년까지는 다른 모델들의 도움 없이 순방향 신경망이 잘 작동하지 않는다고 여겨졌습니다. 그러나 현재는 적절한 자원과 공학적 실행이 가해진다면 순방향 신경망이 아주 잘 작동한다는 점이 알려져 있습니다. 오늘날 순방향 신경망의 기울기 기반 학습은 변분 자동부호기나 생성적 적대 신경망(GAN)과 같은 확률 모델을 개발하는 데 사용됩니다. 2012년쯤부터 순방향 신경망은 다른 기술의 지원을 받아야 하는 신뢰성 없는 기술이 아니라, 다른 여러 기계 학습 과제들에 적용할 수 있는 강력한 기술로 인정받게 되었습니다. 현재는 미지도 학습을 보조하는 지도 학습 기술로도 널리 사용되고 있습니다.
순방향 신경망은 여전히 실현되지 않은 잠재력을 가지고 있습니다. 미래에는 순방향 신경망이 더 많은 과제에 적용될 것이며, 최적화 알고리즘과 모델 설계의 발전에 따라 순방향 신경망의 성능이 더욱 향상될 것으로 예상됩니다.
결론
순방향 신경망은 현대적인 함수 근사 문제에 대해 효과적으로 작동하며, 역사적으로 경사 하강법과 역전파 알고리즘의 발전으로 이루어졌습니다. 현재는 다른 기술과의 결합으로 믿음직한 기술로 인정받고 있으며, 미래에는 더 많은 과제에 적용될 것으로 예상됩니다. 최적화 알고리즘과 모델 설계의 발전에 따라 성능이 더욱 향상될 것으로 전망됩니다.