1980년대부터 약 2009년에서 2012년까지, 음성 시스템은 주로 은닉 마르포크 모형(HMM)과 가우스 혼합 모형(GMM)의 조합으로 구성되었습니다. 이는 음향 특징과 음소의 관계를 모델링하는 GMM과 음소의 순차열을 모델링하는 HMM을 결합한 것입니다. 이후 음성 인식에서는 신경망이 사용되기 위해 시작했고, 1980년대 후반과 1990년대 초반에는 신경망을 이용한 음성 인식 시스템이 많이 개발되었습니다. 이 시기에 신경망 기반 시스템은 TIMIT 말뭉치의 39가지 음소를 대상으로 29%의 음소 오차율을 달성했습니다. 이후 TIMIT는 음성 인식의 대표적인 벤치마크로 자리매김했으며, 음성 인식에서는 GMM-HMM 시스템이 주류를 이뤘습니다. 이는 음성 인식 소프트웨어 시스템이 복잡한 공학과 기술을 요구하며, 이미 큰 비용과 시간이 투자된 GMM-HMM 기반 시스템 때문에 신경망 기반 음성 인식으로의 전환이 뒷받침되지 않았기 때문입니다. 그 결과, 2000년대 후반까지 음성 인식에 대한 연구는 주로 GMM-HMM 시스템을 보완하기 위한 신경망 기반 특징 학습에 집중되었습니다.
딥러닝의 등장과 음성 인식의 혁신
이후, 더 크고 깊은 신경망과 대규모 데이터 세트의 사용으로 신경망의 정확도가 크게 향상되었습니다. 이에 따라 GMM 대신 신경망이 음향 특징을 음소에 연결하는 과제에 사용되었습니다. 2009년부터 음성 연구자들은 딥러닝을 음성 인식에 적용하기 위해 시작했습니다. 이러한 접근 방식은 무향 확률적 모델인 제한 볼츠만 머신을 훈련하여 입력 데이터를 모델링하는 것을 기반으로 합니다. 음성 인식을 위해 비지도 사전 훈련을 통해 심층 순방향 신경망을 구축하며, 이를 통해 TIMIT의 인식률이 향상되고 음소 오차율이 낮아졌습니다. 이후 이러한 기본적인 파이프라인은 화자 적응 특징을 추가하는 등의 방법으로 더 발전했습니다. 또한, 음소 인식을 넘어서 큰 어휘의 음성 인식으로 확장되었으며, 이를 위해 적절한 단어를 인식하는 능력도 필요했습니다. 시간이 지남에 따라 음성 인식을 위한 심층 신경망은 사전 훈련과 볼츠만 머신에서 정규화 선형 단위와 드롭아웃 같은 기술로 발전했습니다. 이러한 혁신들은 현재 이동 전화 등의 제품에서 사용되고 있습니다.
딥러닝의 확산과 음성 인식 기술의 전환
이후, 연구 그룹들은 점점 더 큰 데이터 세트를 사용하고 심층 신경망의 초기화 및 훈련 설정을 실험하는 과정에서 비지도 사전 훈련이 성과를 크게 개선하지 않거나 필요하지 않음을 발견했습니다.
이러한 연구 성과로 인해 음성 인식에서 단어 오차율의 성능이 이전에 없던 수준으로 개선되었습니다. 반면, 전통적인 GMM-HMM 기술은 데이터 세트가 커지더라도 오차율이 크게 개선되지 않았습니다. 결과적으로, 음성 인식 커뮤니티는 빠르게 딥러닝으로 전환되었습니다. 약 2년 만에 업계 대다수의 음성 인식 제품이 심층 신경망을 사용하게 되었으며, 이러한 추세는 계속 가속화되고 있습니다. 새로운 연구들이 딥러닝 알고리즘과 ASR을 위한 아키텍처에 대한 물결을 이끌고 있으며, 이러한 추세는 현재도 진행 중입니다.
주요 혁신 중 하나는 합성곱 신경망을 사용하여 시간과 주파수에 대해 가중치를 공유하는 것입니다. 이러한 신경망은 기존의 시간 지연 신경망보다 더 나은 성능을 보여주었습니다. 새로운 2차원 합성곱 모델은 입력 스펙트로그램을 일종의 2차원 이미지로 취급하며, 한 축은 시간을 다른 축은 주파수에 대응합니다.
또 다른 중요한 흐름은 HMM을 완전히 배제하고 종단 간 딥러닝 ASR 시스템을 구축하는 것입니다. 이 방향의 첫 번째 주요 혁신은 Graves에 의해 시작되었습니다. Graves는 하나의 심층 LSTM 순환 신경망을 훈련했는데, 이 훈련에는 프레임 음소 정렬에 대한 MAP 추론이 사용되었습니다. Graves가 제안한 심층 RNN은 여러 층의 상태 변수를 가지고 있으며, 이들은 시간에 따라 펼쳐진 그래프에 두 종류의 깊이를 형성합니다. 하나는 일반적인 층의 깊이이고, 다른 하나는 시간에 대한 깊이입니다. 이 신경망은 TIMIT에 대한 음소 오차율을 역대 최소인 17%로 낮추었습니다.
결론
딥러닝의 발전으로 음성 인식 기술은 GMM-HMM 시스템을 대체하여 혁신을 이루었습니다. 이러한 변화는 더 큰 데이터 세트와 심층 신경망의 사용으로 가능해졌으며, 이전에 없던 성능 수준으로 단어 오차율을 개선했습니다. 딥러닝의 확산은 음성 인식 분야에서 빠르게 진행되었으며, 심층 신경망을 사용한 ASR 시스템이 업계 표준으로 자리 잡았습니다. 현재도 딥러닝 알고리즘과 아키텍처에 대한 연구가 진행 중이며, 합성곱 신경망과 종단 간 딥러닝 ASR 시스템 등의 혁신이 주목받고 있습니다.