불러야 반응하는 인공지능(AI)스피커
'시리아 내전' 강의 도중 Siri 응답 "부르셨어요?"
음성↔텍스트 변환, 음성인식 기술이 핵심
편집자주
현실로 성큼 다가온 인공지능(AI)시대. 생활 속에 깊숙이 스며든 AI 이야기가 격주 토요일 <한국일보> 에 찾아옵니다. 컴퓨터비전을 연구하는 정소영 서울여대 기초교육원 초빙교수가 쉽게 풀어드립니다. 한국일보>
“헤이 카카오, 오늘 날씨 알려줘.”
얼마 전만 해도 영하였던 기온이 어느새 영상 10도를 웃돈다. 기온이 들쑥날쑥한 계절, 날씨 확인은 필수다. 예전에는 날씨를 직접 검색했지만 이제는 인공지능(AI)스피커 덕분에 스마트폰을 두드리지 않고도 음성만으로 간편하게 확인할 수 있게 됐다. AI비서가 생긴 기분이다. 요리를 하다가 타이머를 맞춰야 한다면 ‘헤이 카카오’를 불러 손쉽게 타이머를 맞출 수 있다. 처음에는 ‘AI스피커 이거 괜히 예쁜 쓰레기 사는 것 아닌가’ 고민했는데, 음성 명령에 익숙해지니 꽤 유용하다. 많은 회사들이 AI스피커를 사물인터넷(IoT) 가전의 허브로 사용해 스마트홈을 만드는 시도를 하고 있다고 하니, 가까운 미래에 이불 속에서 "불 꺼줘"라는 말 한마디로 전등을 끄고 출근 전 "저녁 7시까지 세탁기 돌려줘"라고 입으로 집안일 할 날이 오길 바라는 것도 무리한 기대는 아니다. 물론 지금도 휴대폰으로 제어가 가능한 전등이나 가전이 많이 있지만, 이 모든 기능이 AI스피커에 탑재된다면 개별적인 앱 설치 없이 음성명령만으로 집에서 손하나 까딱하지 않아도 되는 편리한 세상이 될 수 있을 것이다.
심부름 잘하는 동생 같은 AI스피커는 어떻게 우리 말을 알아들을까? AI스피커가 사람의 모든 말에 반응하는 건 아니다. AI스피커에는 규칙이 있다. 명령을 내리기 전 반드시 AI스피커의 이름을 불러야 한다. 그래서 스피커의 마이크 센서는 주기적으로 소리를 뽑아 정해진 이름이 불렸는지를 확인한다. 시리아 내전과 관련한 강의 도중 강의실 내 수많은 Siri(아이폰 음성인식 서비스)들이 "시리아 내전이!"에 반응해 "부르셨어요?"하고 대답한 일화는 유명하다. 이렇게 특정 이름을 불러 AI스피커가 명령을 받아들일 준비가 되면 우린 음성으로 명령을 내리면 된다.
그럼 우리가 어떤 명령을 내리는지 AI스피커는 어떻게 알까? AI스피커는 음성을 텍스트로 변환해주는 ‘STT(Speech-to-Text)’와 텍스트를 음성으로 변환해주는 ‘TTS(Text-to-Speech)’ 기술에 기반하고 있다. TTS, STT 기술 덕분에 말로 스피커에게 명령을 내리고 그에 대한 결과를 음성으로 받을 수 있는 것이다.
음성은 고정된 텍스트와는 달리 일정한 시간을 간격으로 배치된 시계열 데이터다. 이런 시계열 데이터는 특징을 뽑을 때 주파수 도메인이라는 특정 도메인으로 변환하여 특징을 뽑아야 더 잘 표현이 된다. 다시 말해, 스피커가 내 음성을 더 잘 인식할 수 있는 형태로 바꿔주는 것이다. 이렇게 도메인을 변환하여 뽑은 특징을 딥러닝 모델에 넣는데, 이 때 시계열 데이터 분석을 잘 하는 RNN모델(Reccurrent Neural Network·순환 신경망)을 사용한다. 이 RNN모델이 입력된 음성이 어떤 텍스트로 맵핑이 될지 추론을 하는 것이다. 다음으로 더 정확한 인식을 위해 추론한 텍스트에서 겹침이나 모호한 부분을 제거해 데이터베이스 속 실제 가능성이 가장 큰 단어에 매칭함으로써 최종적으로 어떤 텍스트인지 인식하게 된다. 이런 방법으로 텍스트를 정확하게 인식하는 것을 STT 기술이라고 한다. 반대로 입력을 텍스트, 출력을 음성으로 바꾸면 TTS 기술이 된다. 위와 같은 음성인식 기술이 각종 AI스피커들의 핵심 기술이다.
AI스피커는 비단 나처럼 게으른 사람들에게만 유용한 것이 아니다. 디지털기기 사용이 미숙한 노년층은 AI스피커를 사용하면 복잡한 사용법을 익히지 않아도 되고, 거동이 불편한 분은 기기에 접근하지 않아도 돼 편리한 수단이 될 수 있다. 우리 실생활에 스며들고 있는 AI스피커. 우린 기술을 통해 보다 더 나은 미래를 맞이할 수 있지 않을까?
기사 URL이 복사되었습니다.
댓글0