본문 바로가기
카테고리 없음

인공지능 시각 연구

by 타로101 2024. 5. 7.

딥러닝에서 시각은 중요한 연구 분야 중 하나로, 사람과 동물에게는 쉬운 작업이지만 컴퓨터에는 어려운 도전입니다. 현재 딥러닝 알고리즘 성능을 측정하는 유명한 데이터 세트에는 주로 물체 인식이나 OCR가 관련된 것들이 많이 사용됩니다.

 

인공지능
인공지능

 

컴퓨터 시가의 다양한 응용

컴퓨터 시각은 매우 다양한 분야로, 이미지 처리 방법과 결과를 활용하는 방법도 다양합니다. 이는 얼굴 인식과 같은 인간의 시각 능력을 모방하는 것부터 새로운 시각 능력을 만드는 것까지 다양한 응용이 있습니다. 예를 들어, 최근의 한 응용 프로그램은 동영상에서 물체의 미세한 움직임으로 음파를 감지합니다. 그러나 대부분의 딥러닝 연구는 인간의 능력을 모방하는 것에 초점을 맞춥니다. 대부분의 시스템은 물체 인식이나 검출에 중점을 둔 딥러닝 시스템이며, 이를 통해 이미지에 존재하는 물체를 식별하거나 경계 상자를 추가하거나 물체의 기호를 전사합니다. 또한, 이미지 합성에도 많은 연구가 이루어지며, 이는 이미지 복원과 같은 과제에 활용됩니다.

 

이미지 전처리의 필요성

딥러닝은 종종 복잡한 형태의 입력을 처리해야 하므로 정교한 전처리가 필요할 때가 있습니다. 그러나 컴퓨터 시각에서는 일반적으로 이미지의 픽셀값이 적절한 범위로 정규화되어 있기 때문에 그런 종류의 전처리가 필요하지 않습니다. 일부 컴퓨터 시각 아키텍처는 이미지를 잘라내거나 비율을 맞추는 전처리가 필요하지만, 이 또한 항상 필수적인 것은 아닙니다. 몇몇 합성곱 모형은 가변 크기 이미지를 다루고 풀링 영역의 크기를 동적으로 조정하여 출력 크기를 일정하게 유지할 수 있습니다. 또한, 어떤 합성곱 모형은 입력의 크기에 맞게 자동으로 출력 크기를 조정할 수 있습니다. 이러한 모형은 이미지의 잡음 제거나 픽셀에 이름표를 부여하는 작업 등에 사용될 수 있습니다.

 

자료 집합 증강과 전처리

자료 집합 증강은 훈련 데이터에만 적용되는 전처리 방법으로, 대다수의 컴퓨터 시각 모델에서 일반화 오차를 감소시키는 데 유용한 방법입니다. 이 방법의 하나는 모델에 동일한 입력의 여러 다른 버전을 제공하여 각각의 출력을 얻은 후, 이 출력들에 다수결을 적용하여 최종 출력을 생성하는 것입니다. 이러한 앙상블 학습 접근 방식은 일반화 오차를 줄이는 데 도움이 됩니다.
또한, 훈련 데이터와 시험 데이터 양쪽에 적용할 수 있는 전처리 기법도 있습니다. 이러한 전처리는 각 샘플을 표준적인 형태로 변환하여 모델이 처리해야 할 변동을 줄입니다. 이러한 변동의 양을 줄이면 훈련 데이터에 적합한 모델의 일반화 오차와 크기가 모두 줄어듭니다. 과제가 간단할수록 더 작은 모델을 사용할 수 있고, 작은 모델은 일반적으로 더 잘 일반화됩니다. 이러한 전처리는 설계자가 쉽게 설명하고, 과제와 관련 없는 변동을 제거하는 데 사용됩니다. 큰 모델을 큰 데이터 세트로 훈련할 때는 이러한 전처리가 필요하지 않을 수 있습니다. 이러한 경우 모델이 과제와 관련 없는 변동을 학습하는 것이 더 좋을 수 있습니다.

 

명암비에 관한 정규화

여러 컴퓨터 시각 과제에서 안정적으로 제거할 수 있는 가장 명확한 변동 요소 중 하나는 이미지의 명암비입니다. 명암비는 이미지의 밝은 픽셀과 어두운 픽셀 간의 차이를 나타내는데, 딥러닝에서는 종종 이미지 전체 또는 특정 영역의 픽셀 표준편차로 명암비를 측정합니다.
전역 명암비 정규화는 여러 이미지의 명암비 변동을 줄이기 위해 사용되는데, 각 이미지에서 평균 명암비를 뺀 후 이미지 픽셀들의 표준편차를 적절한 비례 상수와 같게 만듭니다. 이 방법의 문제는 명암비가 0인 이미지는 어떤 비례 상수를 사용하더라도 명암비를 변경할 수 없다는 것입니다. 명암비가 매우 낮지만 0이 아닌 이미지는 정보가 거의 없을 때가 많습니다. 이 경우 진 표준편차로 나누어도 감지기의 잡음이나 압축 결함이 강조될 뿐입니다. 이러한 문제를 해결하기 위해 작은 양의 정규화 매개변수를 표준편차 추정량에 더하거나 분모에 일정 값을 도입하는 방법을 사용할 수 있습니다.
큰 이미지에서 특정 물체를 자르거나 추출하여 만든 자료 집합에서는 픽셀 세기가 일정한 이미지가 흔하지 않습니다. 이런 경우 분모가 0이 되는 문제를 무시할 수 있으므로 간단히 0으로 설정할 수 있습니다. 그러나 매우 드물지만 0으로 나누는 경우가 발생할 수 있으므로 이를 방지하기 위해 일반적으로 매우 작은 값인 0.0001과 같은 값을 사용하여 분모를 조정합니다.
전역 명암비 정규화는 때때로 이미지의 중요한 특징인 윤곽선이나 모서리와 같은 뚜렷한 요소를 강조하지 못할 수 있습니다. 특히 큰 어두운 영역과 큰 밝은 영역이 함께 있는 이미지에 대해 GCN은 어두운 영역과 밝은 영역의 밝기 차이를 잘 반영하지만, 어두운 영역 내의 윤곽이 두드러지게 되지는 않습니다.

 

국소 명암비 정규화의 효과

국소 명암비 정규화는 이미지의 작은 영역에 대해 명암비를 조정하여 전체 이미지가 아닌 특정 부분의 뚜렷한 특징을 강조하는 기법입니다. 이 방법은 각 픽셀에서 인근 픽셀들의 평균을 빼고 표준편차로 나누는 것으로, 구체적인 방법은 여러 가지가 있습니다. 예를 들어, 픽셀을 중심으로 한 직사각형 영역의 평균과 표준편차를 사용하거나 가우스 가중치를 적용한 가중 평균과 가중 표준편차를 사용할 수 있습니다. 또한, 색상 이미지의 경우 각 채널을 따로 처리하거나 여러 채널의 정보를 결합하여 정규화하는 전략도 있습니다.
일반적으로 국소 명암비 정규화는 분리할 수 있는 합성곱을 사용하여 국소 평균과 국소 표준편차의 특징 맵을 계산한 후, 각 특징 지도에 대해 성분별 뺄셈과 성분별 나눗셈을 적용하여 효율적으로 구현됩니다.
국소 명암비 정규화는 미분할 수 있는 연산이므로 입력 전처리 연산과 심지어 신경망의 은닉층에 비선형 함수로도 사용할 수 있습니다.
국소 명암비 정규화에서도 0으로 나누기를 피하기 위해 정규화가 필요합니다. 실제로 국소 명암비 정규화는 전역 명암비 정규화보다 작은 영역에 적용되기 때문에 정규화가 더 중요합니다. 작은 영역에서는 픽셀들의 세기가 서로 비슷할 가능성이 크기 때문에 표준편차가 0에 가까워질 가능성이 높습니다. 이에 따라 정규화가 필요하며, 일반적으로 0으로 나누기를 방지하기 위해 작은 값(예: 0.0001)을 분모에 더하는 방식 등을 사용합니다.

 

분류기 일반화를 개선하는 방법

분류기의 일반화를 개선하는 효과적인 방법의 하나는 훈련 데이터가 부류를 변경하지 않는 변환을 적용하여 확장하는 것입니다. 이 방법은 특히 물체 인식과 같은 분류 과제에 적합합니다. 물체 인식에서는 입력을 다양한 기하학적 연산으로 변환할 수 있으므로 부류를 변경하지 않는 변환을 수행할 수 있습니다. 예를 들어, 무작위 이동 및 회전 변환을 적용하여 새로운 보기를 생성할 수 있으며, 때로는 이미지를 좌우 또는 상하로 뒤집어 새로운 보기를 생성하기도 합니다. 특히 특정 컴퓨터 비전 응용 프로그램에서는 더 정교한 변환을 사용하여 데이터를 확장하는 것이 일반적입니다.

 

결론

딥러닝에서 컴퓨터 시각은 중요한 연구 분야 중 하나로, 다양한 응용 분야에 활용될 수 있습니다. 현재 대부분의 연구는 인간의 시각 능력을 모방하거나 개선하는 데 초점을 맞추고 있지만, 이미지 처리와 관련된 다양한 방법과 전처리 기술을 통해 성능을 향상할 수 있습니다. 특히 자료 집합 증강과 전처리, 명암비 정규화, 그리고 국소 명암비 정규화와 같은 기술은 딥러닝 모델의 성능과 일반화를 개선하는 데 중요한 역할을 할 수 있습니다. 또한, 분류기의 일반화를 개선하기 위해 훈련 데이터를 다양한 변환을 통해 확장하는 방법도 유효합니다.