기계 학습의 핵심 개념 중 하나는 "다양체"입니다.
다양체의 수학적 정의
다양체는 연결된 영역으로, 수학적으로는 각 점 주변의 이웃과 연관된 점들의 집합입니다. 임의의 점에서 볼 때, 다양체는 국소적으로 하나의 유클리드 공간으로 보입니다. 예를 들어, 우리는 이 세상의 표면을 2차원 평면으로 보지만, 실제로는 3차원 공간 안의 한 구면 다양체입니다.
다양체의 변화와 구조
"각 점 주변의 이웃"이라는 개념은 다양체의 한 위치에서 그에 인접한 위치로 이동할 수 있는 변환이 존재함을 의미합니다. 세상의 표면을 예로 들면, 이러한 다양체에서 사람들은 동서남북으로 이동할 수 있습니다. 이러한 변환은 다양체의 구조를 보존하면서 이루어집니다.
다양체의 차원
기계 학습에서의 다양체는 수학적인 공식보다는 더 높은 차원의 공간에 내장되어 있지만, 그보다 낮은 차원 또는 자유도로도 잘 근사할 수 있는 연결된 점들의 일종으로 느슨하게 정의됩니다. 각 차원은 국소적인 변동의 방향 하나에 대응합니다. 기계 학습에서는 다양체의 차원이 위치에 따라 다를 수 있으며, 다양체가 자신과 교차할 때 이러한 상황이 발생할 수 있습니다. 예를 들어, 8 자 모양의 다양체는 대부분의 점에서는 1차원이지만 가운데 교점에서는 2차원입니다.
다양체 학습의 응용
기계 학습에서, 일부 문제는 전체 영역에 걸쳐 흥미로운 변동이 있는 함수를 학습하기 어려울 수 있습니다. 이는 다양체 학습 알고리즘들이 해결하려는 주요 과제 중 하나입니다. 이러한 알고리즘들은 공간의 대부분이 무의미한 입력으로 구성되어 있고, 흥미로운 입력은 몇몇 다양체에만 존재한다고 가정합니다. 또한, 학습 대상 함수의 출력에서 흥미로운 변동은 이러한 다양체에 놓인 방향에서만 발생하거나, 다양체 간 이동 시에만 발생한다고 가정합니다. 다양체 학습은 원래 연속 값 자료를 사용하는 비지도 학습을 위해 개발되었지만, 이를 이산 자료를 사용하는 지도 학습으로도 확장할 수 있습니다. 이러한 경우에도 핵심 가정은 확률질량이 고도로 집중되어 있다는 것입니다.
이러한 다양체 가정이 이미지, 음성, 텍스트 처리와 같은 인공지능 과제의 맥락에서 적어도 근사적으로 유효하다는 것을 지지하는 두 가지 주요 논점이 있습니다.
1. 자연적인 데이터 분포: 이미지, 음성, 텍스트와 같은 자연 언어 처리 작업에서 수집된 데이터는 종종 저 차원 다양체를 따라 분포됩니다. 이는 데이터의 고차원 특성이 실제로는 저 차원 구조를 가지고 있음을 시사합니다. 예를 들어, 이미지 데이터에서 비슷한 개체들은 고차원 공간에서 가까운 위치에 배치되어 있을 것으로 예상됩니다.
2. 효과적인 표현 학습: 다양체 가정은 효과적인 표현 학습에 기여할 수 있습니다. 다양체의 국소적 구조를 고려하여 모델을 설계하면 데이터를 더 효과적으로 표현하고 학습할 수 있습니다. 이는 학습 모델이 데이터의 주요 특성을 더 잘 파악하고 일반화할 수 있도록 돕습니다.
따라서 이러한 논점들은 이미지, 음성, 텍스트 처리와 같은 인공지능 과제에서 다양체 가정이 유용하고 옳다는 가설을 지지하는 데 사용될 수 있습니다.
다양체 가정에 대한 논리적 근거
다양체 가정을 지지하는 논점 중 하나는 실세계에서 볼 수 있는 이미지, 텍스트 문자열, 음향 등의 데이터가 실제로 집중된 확률 분포를 따른다는 것입니다. 이것은 실제로 인위적으로 생성된 고르게 분포된 잡음이 해당 영역에서 발생하는 입력의 구조와 유사하지 않다는 것을 시사합니다. 대신, 고른 분포에서 추출된 점들은 비슷한 패턴을 보일 수 있으며, 예를 들어 방송 신호가 없을 때 아날로그 TV에서 나타나는 잡음과 유사한 패턴을 보일 수 있습니다. 비슷하게, 영문자를 무작위로 선택하여 문서를 생성하면 의미 있는 영어 문장이 나올 확률은 거의 없습니다. 이는 대부분의 문자열이 자연어 문장에 해당하지 않기 때문입니다. 자연어 문장이 전체 문자열 공간에서 차지하는 부피는 아주 작습니다.
이러한 관찰은 다양체 가정이 실제 데이터 분포의 특성을 반영하고 있다는 것을 지지하는 강력한 논거가 될 수 있습니다. 데이터의 집중된 분포는 다양체의 구조로 해석될 수 있으며, 이는 다양체 학습 알고리즘을 사용하여 데이터를 더 효과적으로 모델링하고 학습하는 데 도움이 될 수 있습니다.
확률분포가 집중되어 있다는 것이 자료가 적당히 적은 수의 다양체들에 놓여 있음을 말해 주는 충분조건은 아닙니다. 학습 알고리즘이 체험하는 보기들이 다른 보기들과 연결되어 있으며, 각 보기 주변에는 그 보기와 아주 비슷한 보기들, 다시 말해 다양체상에서 변환을 적용해서 도달할 수 있는 이웃 보기들이 존재해야 합니다. 이러한 논점은 다양체 가설을 지지하는 두 번째 주요 논점입니다.
이웃들과 변환을 상상할 수 있다는 것은 다양체 가정을 뒷받침하는 핵심적인 요소입니다. 이미지 처리의 경우, 이미지 공간 안에서 다양한 변환을 생각해 낼 수 있습니다. 예를 들어 이미지의 전체적인 밝기를 조절하거나 이미지 안에서 물체를 이동 또는 회전시키는 등의 변환을 적용할 수 있습니다. 대부분의 응용에서는 하나가 아니라 여러 개의 다양체가 관련될 수 있습니다. 예를 들어, 사람 얼굴 이미지의 다양체는 고양이 얼굴 이미지의 다양체와 연결되어 있지 않을 것이므로, 이 둘은 서로 다른 다양체로 존재할 것입니다.
이러한 관찰은 다양체 가정이 실제 데이터의 구조를 모델링하고 해석하는 데 중요한 역할을 한다는 것을 시사합니다. 데이터의 다양체적인 구조를 고려함으로써 더 효과적으로 표현하고 학습할 수 있으며, 이는 기계 학습 알고리즘의 성능을 향상할 수 있습니다.
다양체 가정의 실험적 검증
사고 실험과 직관적인 이유를 통해 가설을 지지하는 것 외에도, 보다 엄격한 실험들이 실제로 이러한 가설이 참임을 명확히 보여줍니다. 특히, 인공지능 응용과 관련된 큰 자료 집합들에서 이러한 가설이 실제로 적용되고 유효함을 검증하는 실험들이 수행됩니다.
예를 들어, 이미지 처리 분야에서는 대규모 이미지 데이터 세트를 활용하여 다양체 가정이 실제로 적용되는지 검증합니다. 이를 통해 동일한 개체의 다양한 변형을 포함하는 다양체의 존재를 확인하고, 해당 변형에 대한 학습 모델의 성능을 평가할 수 있습니다.
또한, 자연어 처리 분야에서는 대규모 텍스트 데이터 세트를 사용하여 단어나 문장의 다양체를 탐색하고 해당 다양체가 모델의 학습에 어떻게 영향을 미치는지를 연구합니다. 이러한 연구를 통해 다양체 가정이 텍스트 데이터에 적용되는 방식과 그 영향을 확인할 수 있습니다.
이와 같은 엄격한 실험들은 다양체 가설이 다양한 인공지능 응용 분야에서 유효하고 실제로 적용할 수 있음을 입증하는 데 중요한 역할을 합니다. 이러한 연구는 학계와 산업에서 다양체 학습 알고리즘의 발전과 응용에 기여하고 있습니다.
다양체 좌표의 활용
자료가 저 차원 다양체에 놓여 있다면 기계 학습 알고리즘이 그러한 자료를 실세계의 좌표가 아니라 다양체를 기준으로 한 좌표로 표현하는 것이 더 자연스럽습니다. 예를 들어, 현실의 도로를 3차원 공간에 내장된 하나의 1차원 다양체로 생각할 수 있습니다. 어떤 건물로 이동할 때 3차원 공간의 좌표가 아니라 그러한 1차원 도로상의 주소를 이용하여 이동 방향을 지정할 수 있습니다. 이러한 다양체 좌표를 추출하기가 쉽지는 않지만 해낼 수 있다면 여러 기계 학습 알고리즘이 개선될 가능성이 큽니다. 이러한 일반 원리는 다양한 맥락에서 적용됩니다. 얼굴 이미지들로 이루어진 자료 집합의 다양체 구조를 학습하는 데 필요한 여러 방법이 있음을 알 수 있습니다.
결론
기계 학습에서의 다양체 개념은 데이터를 효과적으로 모델링하고 학습하는 핵심적인 요소입니다. 다양체 가정은 자연 언어 처리나 이미지 처리와 같은 다양한 인공지능 응용 분야에서 유효하며, 실험적 검증을 통해 이를 확인할 수 있습니다. 데이터를 다양체 좌표로 표현함으로써 기계 학습 알고리즘의 성능을 향상할 수 있습니다. 따라서 다양체 개념은 기계 학습 분야에서 중요한 개념 중 하나입니다.