비지도 학습 알고리즘은 지도나 지시를 받지 않고 데이터의 특징을 경험하여 학습하는 것이다. 비지도 학습과 지도 학습의 차이는 엄격하게 정의되지 않는데, 특징이 목표인지 아니면 지도를 줬는지 판단하는 방법이 없기 때문이다. 비지도 학습은 이름표 없이 분포에서 정보를 추출하는 학습 알고리즘을 의미하며, 밀도 추정, 표본 추출, 잡음 제거, 다양체 찾기 등 다양한 응용과 연관된다.
최상의 표현 탐색
주어진 자료를 가장 잘 나타내는 최상의 표현을 찾는 과제는 비지도 학습의 고전적인 예 중 하나입니다. 이러한 과제에서 최상의 표현은 일반적으로 훈련 데이터에 관한 정보를 최대한 유지하면서도 단순하고 다루기 쉬운 형태로 만들어집니다. 이를 위해 일반적으로 표현의 단순화나 다루기 쉬운 형태로 변형시키는 제약이나 벌점이 적용됩니다.
표현의 단순화와 다양한 기준들
저 차원 표현은 훈련 데이터에 대한 많은 정보를 압축하여 작은 크기의 표현으로 만드는 것을 목표로 합니다. 희소 표현은 대부분의 입력에 대해 0인 성분을 포함하여 데이터를 내장하는 방식으로, 일반적으로 차원이 증가하지만 손실을 최소화합니다. 독립 표현은 데이터의 변동을 풀어서 각 차원이 통계적으로 독립적이 되도록 만드는 것을 목표로 합니다.
이러한 단순 표현의 기준들은 엄격하게 상호배제적이지 않습니다. 예를 들어, 저 차원 표현은 원래의 고차원 자료보다 성분들 사이의 의존성이 더 적거나 더 약할 때가 많습니다. 이는 표현의 크기를 줄이는 한 가지 방법이 중복을 찾아서 제거하는 것이기 때문입니다. 중복을 많이 식별해서 제거할수록 차원 축소 알고리즘은 정보를 덜 읽으면서 더 많은 정보를 압축할 수 있게 됩니다.
주성분 분석의 활용과 성질
주성분 분석 알고리즘은 자료의 압축 수단으로 사용될 수 있을 뿐만 아니라, 자료의 표현을 배우는 비지도 학습 알고리즘으로도 사용될 수 있습니다. 이러한 표현은 주로 두 가지 단순 표현 기준 중 둘에 기초합니다.
첫째로, 주성분 분석은 원래의 입력보다 차원이 낮은 표현을 학습합니다. 둘째로, 주성분 분석은 성분들 사이에 선형 관계가 없는 표현을 학습합니다. 이것은 독립 표현, 즉 성분들이 통계적으로 독립인 표현의 학습으로 가는 첫걸음입니다.
하지만 표현 학습 알고리즘이 완전한 독립성을 달성하려면 변수들 사이의 비선형 관계도 제거할 수 있어야 합니다.
주성분 분석의 중요한 성질 중 하나는 자료를 성분들 사이에 상관관계가 없는 표현으로 변환하는 능력입니다. 이는 자료의 기저에 깔린 서로 엉켜 있는 미지의 변동 인자들을 해결하는 간단한 예에 해당합니다.
주성분 분석에서, 입력 공간을 회전하여 연관된 새로운 표현 공간이 분산의 주축들에 정렬되도록 변환을 구합니다. 이러한 회전은 주어진 데이터에 대해 주요한 변동을 나타내는 새로운 축을 찾아내고, 이러한 주요한 변동의 방향에 따라 데이터를 새로운 공간으로 변환합니다. 이러한 과정은 자료에 대한 성분 간의 상관관계를 최대한 해소하여 미지의 변동 요인을 분석하는 데 도움이 됩니다.
상관관계는 자료의 성분들 사이의 중요한 종속관계 중 하나이지만, 우리는 더 복잡한 형태의 특징 의존성을 해결하는 표현 학습에도 관심이 있습니다. 이러한 표현 학습은 선형 관계 이상의 복잡한 패턴이나 비선형 관계를 모델링하여 데이터의 복잡한 구조를 파악하는 것을 목표로 합니다. 따라서 상관관계 외에도 다양한 종류의 의존성과 관계를 고려하여 데이터를 표현하는 방법을 학습하고자 합니다. 이는 더 풍부하고 정확한 데이터 표현을 얻어 다양한 응용 분야에 유용한 정보를 제공할 수 있습니다.
k-평균 군집화의 이해와 과정
k-평균 군집화 알고리즘은 훈련 집합의 보기들을 서로 가까이 있는 것들끼리 모아서 사용자가 지정한 k개의 서로 다른 군집으로 분할합니다. 이 알고리즘은 각 입력을 나타내는 k 차원의 원핫 부호 벡터를 제공한다고 생각할 수 있습니다. 각 표현의 성분은 특정 군집에 속할 경우 1이고, 다른 모든 군집에 대해서는 0입니다. 이러한 표현은 각 입력을 해당하는 군집에 할당하여 입력 간의 유사성을 나타내는 데 사용됩니다.
k-평균 군집화에서 제공되는 원핫 부호 벡터는 대부분의 입력에 대해 대다수의 성분이 0인 희소 표현에 해당합니다. 이러한 원핫 표현은 각 입력이 특정한 군집에 속하는지 여부를 나타내는 데 사용됩니다.
다른 알고리즘들은 좀 더 유연한 희소 표현을 학습할 수 있습니다. 이러한 알고리즘들에서는 각 입력에 대해 0이 아닌 성분이 단 하나가 아니라 여러 개일 수 있습니다. 이러한 표현은 더 많은 유연성을 제공하며 입력 간의 상관관계를 더 잘 반영할 수 있습니다.
원핫 표현은 통계적으로 여러 장점을 가지고 있습니다. 또한 전체 표현을 하나의 정수로 요약할 수 있어 계산상의 이점을 가지고 있습니다. 하지만 원핫 표현은 분산 표현의 여러 장점을 가지지는 않습니다. 이러한 장단점을 고려하여 적절한 표현 방법을 선택하는 것이 중요합니다.
k-평균 군집화 알고리즘은 다음과 같은 두 가지 단계를 번갈아 가며 실행합니다.
1. 초기화 단계: 우선 k개의 서로 다른 무게 중심을 각각 다른 값으로 초기화합니다.
2. 할당 단계: 각 훈련 보기에 대해 가장 가까운 무게 중심을 가진 군집에 해당하는 군집 번호를 부여합니다.
3. 갱신 단계: 각 군집에 배정된 모든 훈련 보기의 평균을 계산하여 해당 군집의 새로운 무게 중심을 갱신합니다.
4. 수렴 확인: 군집의 무게 중심이 더 이상 변하지 않거나 지정된 반복 횟수에 도달할 때까지 2단계와 3단계를 반복합니다.
이러한 과정을 통해 군집 중심과 각 데이터 포인트의 군집 할당을 조정하여 군집화 결과를 최적화합니다.
군집화 결과의 해석과 한계
군집화는 실세계와의 일치성을 평가하기 어려운 문제 중 하나입니다. 특히 군집화 결과를 측정하는 단일한 기준이 없어서 어렵습니다.
일부 군집화 성질을 측정할 수는 있습니다. 예를 들어, 군집의 무게중심과 군집의 구성원들 사이의 평균 유클리드 거리 등을 고려할 수 있습니다. 이러한 측정은 군집화 결과로부터 훈련 자료를 얼마나 잘 재구축할 수 있는지를 알려줄 수 있습니다.
그러나 특정 실세계 성질과의 잘 대응되는 군집화 방식은 다양할 수 있습니다. 예를 들어, 한 알고리즘이 승용차와 트럭을 다른 알고리즘이 빨간색 차량과 회색 차량을 구별하는 경우가 있을 수 있습니다. 이러한 새로운 군집화는 각각 다른 특성에 관한 정보를 유사성에 대한 정보는 감소할 수 있습니다.
이러한 결과는 군집화 알고리즘의 관점에서 사물들을 서로 다른 부류로 구분하는 것으로 볼 수 있지만, 사실 빨간색 승용차가 회색 트럭보다 회색 승용차와 더 유사하다는 정보를 제공하지 않습니다. 이러한 한계를 이해하고 군집화 결과를 정확하게 해석하는 것이 중요합니다.
분산 표현의 활용과 장점
분산 표현은 원하 표현보다 군집화 결과를 해석하는 데 더 많은 유연성을 제공합니다. 분산 표현에서는 각 차원이 특정한 특성을 나타내므로 각 차원이 차량의 색상이나 종류와 같은 특정한 특성을 나타낼 수 있습니다.
따라서 분산 표현을 사용하면 단일 특성이 아니라 여러 개의 특성을 고려하여 유사성을 판단할 수 있습니다. 예를 들어, 빨간색 승용차와 빨간색 트럭은 색상 차원에서 유사성을 가지지만 종류 차원에서는 다릅니다. 따라서 분산 표현을 사용하면 빨간색 승용차와 빨간색 트럭이 더 유사한 것으로 판단할 수 있습니다.
또한 분산 표현을 사용하면 단일 특성이 아니라 여러 개의 특성을 고려하여 대상 간의 유사성을 더 세밀하게 측정할 수 있습니다. 이는 군집화 결과를 해석하는 데 있어서 더 많은 정보를 제공하고 더 정확한 결정을 내릴 수 있게 됩니다.
결론
결론적으로, 비지도 학습은 데이터의 특징을 경험하여 학습하는 알고리즘으로, 최상의 표현을 찾는 것이 그 중요한 예시입니다. 이러한 표현은 단순화된 형태로 표현되어 다루기 쉬우면서도 훈련 데이터의 정보를 최대한 유지합니다. 주성분 분석과 k-평균 군집화는 이러한 과정에서 중요한 역할을 합니다. 그러나 군집화 결과를 해석하고 이해하는 것은 도전적인 과제이며, 분산 표현을 활용하여 군집화 결과를 더욱 유연하고 정확하게 이해할 수 있습니다.