기계 학습에서 효과적인 표현은 컴퓨터 과학과 우리의 일상에서 중요한 역할을 합니다. 자료의 표현에 따라 연산 속도나 결과물에 지대한 영향을 미칩니다. 예를 들어, 자료의 구조와 색인이 적절하게 갖춰진 경우 검색 연산이 훨씬 빠릅니다. 마찬가지로, 숫자의 표현 방식에 따라 계산 속도나 편의성이 달라집니다. 이러한 사실은 기계 학습에서도 마찬가지이며, 적절한 자료 표현이 알고리즘의 성능에 큰 영향을 미칩니다.
인공지능 과제와 특징 추출
인공지능 과제 중에는 주어진 과제에 적합한 특징 집합을 추출하고 해당 특징들을 활용하여 간단한 기계 학습 알고리즘을 적용하는 것이 일반적입니다. 예를 들어, 음성을 통해 화자를 식별하는 과제에서는 화자의 성별과 연령을 추정할 수 있는 특징들이 중요합니다. 성별에 대한 특징으로는 화자의 음성 주파수 범위나 성별에 따른 음성 특징들을 활용할 수 있습니다. 또한, 화자의 연령을 추정하는 데에는 음성의 음조나 발음 패턴 등이 유용한 특징으로 활용될 수 있습니다. 이러한 특징들을 추출하고 기계 학습 알고리즘에 적용함으로써 화자 식별 과제를 해결할 수 있습니다.
특징 추출이 어려운 과제들도 많이 있습니다. 예를 들어, 사진에서 자동차를 검출하는 프로그램을 개발한다면 바퀴의 존재 여부를 특징으로 활용할 수 있습니다. 그러나 바퀴의 형태를 정확히 서술하는 것은 어려운 문제입니다. 바퀴의 기하학적 형태는 상대적으로 간단하지만, 그림자, 반사, 가리는 물체 등으로 인해 바퀴의 이미지는 복잡해질 수 있습니다. 이런 경우에는 기하학적 특징뿐만 아니라 색상, 질감, 가장자리 등의 시각적 특징을 조합하여 자동차를 식별하는 데 도움이 되는 특징을 추출해야 합니다. 또한, 이러한 특징들을 효과적으로 추출하기 위해서는 딥러닝과 같은 고급 기술을 적용하여 복잡한 패턴을 인식하는 것이 필요할 수 있습니다.
표현 학습과 복잡한 특징 추출
표현 학습은 표현 자체를 인공지능 시스템이 기계 학습 알고리즘으로 스스로 학습하는 방식으로, 단순히 출력만을 사상하는 것이 아니라 표현 자체를 학습합니다. 이러한 방식은 사람이 직접 설계한 표현보다 뛰어난 성능을 보이며, 새로운 과제에 빠르게 적응할 수 있습니다. 표현 학습 알고리즘을 사용하면 간단한 과제의 특징을 추출하는 데 몇 분이면 충분하고, 복잡한 과제에 대해서도 사람이 직접 설계하는 것보다 훨씬 빠르게 특징을 추출할 수 있습니다. 이러한 방법을 사용하면 몇 시간에서 몇 달이 걸리는 복잡한 과제에 대해도 빠르게 특징을 추출할 수 있으며, 이를 위해 연구자들이 몇십 년이 걸릴 수도 있는 작업을 수행할 필요가 없어집니다.
자동부호기와 다양한 표현
표현 학습 알고리즘의 대표적인 예 중 하나는 자동부호기입니다. 자동부호기는 입력 데이터를 다른 표현으로 변환하는 부호기 함수와 해당 표현을 다시 원래 형식으로 되돌리는 복합기 함수의 결합으로 구성됩니다. 이 과정에서 자동부호기는 입력 데이터가 변환 및 복원되는 과정에서 정보를 최대한 유지하도록 훈련되며, 새로운 표현이 다양한 용도에 적합하도록 훈련될 수도 있습니다. 자동부호기는 여러 가지 원하는 속성을 가진 다양한 종류로 존재하며, 이는 원하는 목적과 데이터에 따라 선택될 수 있습니다.
변동 인자와 특징 추출 목표
특징 집합을 설계하거나 특징 학습 알고리즘을 개발할 때, 주로 관측된 자료를 설명하는 요인을 추출하는 것이 목표입니다. 이러한 요인을 변동 인자라고 합니다. 변동 인자는 관측된 자료에 영향을 미치는 개별적인 원인으로 정의됩니다. 일반적으로 이러한 인자들은 서로 곱해지지 않으며, 관측할 수 있는 수량이 아닌 경우가 많습니다. 대신, 이러한 인자들은 물리적 세계의 관측되지 않은 물체나 힘으로 설명될 수 있습니다. 또한 이러한 인자들은 관측된 자료를 단순화하거나 원인을 추론하는 데 유용한 구인이 될 수도 있습니다. 변동 인자는 자료의 다양성을 이해하는 데 도움이 되는 추상적인 개념으로 볼 수 있습니다. 음성 분석에서는 화자의 특성인 나이, 성별, 억양, 발음된 단어 등이 변동 인자가 될 수 있으며, 자동차 이미지 분석에서는 차의 위치, 색상, 태양의 각도와 밝기 등이 변동 인자로 생각될 수 있습니다.
실세계 응용에서의 변동 인자
실세계 인공지능 응용에서 주요한 난제 중 하나는 관측할 수 있는 자료에 영향을 주는 변동 인자가 너무 많다는 것입니다. 예를 들어, 밤에 촬영한 빨간색 자동차 이미지의 개별 픽셀은 실제로 빨간색이 아니라 검은색에 더 가까울 수 있으며, 자동차의 윤곽선은 시점 각도에 따라 달라질 수 있습니다. 이런 경우 대부분의 인공지능 응용은 관련 없는 변동 인자를 골라내는 능력이 필요합니다.
고수준 추상적 특징과 표현 학습의 어려움
그러나 실제로는 이러한 고수준의 추상적인 특징들을 원본 자료로부터 추출하기가 매우 어려울 수 있습니다. 변동 인자 중 일부는 인간 수준으로 세밀하게 이해해야만 식별할 수 있는데, 예를 들어 화자의 억양 같은 경우가 그렇습니다. 때때로 문제를 해결하기 위해 표현을 얻는 것이 애초의 문제를 해결하는 것만큼이나 어려울 수 있습니다. 이런 상황에서는 표현 학습이 큰 도움이 되지 않을 수 있습니다.
결론
기계 학습에서 효과적인 표현은 중요하며, 표현 학습을 통해 자동부호기와 같은 방법으로 다양한 특징을 추출할 수 있습니다. 그러나 실세계 응용에서는 관측할 수 있는 자료에 영향을 주는 많은 변동 인자가 있어 이를 골라내는 것이 어려운 문제입니다. 고수준의 추상적인 특징을 추출하는 것은 표현 학습만으로는 충분하지 않을 수 있습니다.