음성인식을 위해 딥런닝 기술로 음성을 분석하는 과정을 보여주는 화면. ⓒ서인환

음성과 관련된 컴퓨터나 스마트폰 원천기술은 음성출력과 음성인식 기술이 있다.

음성출력(TTS: Text to Speech)은 문자를 음성으로 변환해주는 기술로, 최근 거의 자연인의 음성 수준으로까지 발전하였다. 하지만 스마트폰에서 음성출력은 파일의 용량을 가볍게 해야 하는 인베디드 문제로 음질이 떨어지는데, 시각장애인들이 스마트폰에서 장애인 접근성을 위해 제공되는 Talkback 음성합성 프로그램의 음질 문제로 제대로 내용을 파악하지 못해 안드로이드폰을 포기하고 아이폰을 사용하는 경우가 많다.

음성출력의 기능의 접근성 부족도 문제이지만, 음질의 문제도 심각하다. 대용량 서버에서 음성출력을 하게 되면 매우 음질이 좋아지는데, 이 경우 반응속도가 느려질 가능성이 문제다.

카카오톡에서 대화 중에 이모티콘을 많이 사용하는데, 특히 자신의 감정 표현에 많이 사용한다. 시각장애인들은 상대가 보내준 이모티콘의 이미지를 볼 수 없어 그 의미를 전혀 알지 못하였는데, 카카오톡에서는 이를 지원하기 위해 이모티콘에 손을 갖다 대면 그 의미를 문자(말풍선)로 나타내 시각장애인도 이용할 수 있게 하였다.

시각장애인이 실제로 이모티콘이 어떻게 생겼는지는 알지 못하지만, 그리고 이모티콘의 예쁜 모습은 감상할 수 없지만 의미를 알기에 상대에게 자기 감정표현은 자유롭게 할 수 있게 되었다. 시각장애인들이 이모티콘을 너무나 잘 사용하여 놀라거나 오히려 그 의미를 시각장애인에게 다시 물어보는 경우도 있다.

음성인식 기술은 시각장애인이나 발달장애인에게 글을 정확하게 쓰게 하거나, 언어장애인이 하는 말을 통역하거나 청각장애인이 말을 알아들을 수 있도록 글로 번역해 주는 등 매우 유용한 기술인데, 최근에는 음성으로 가전제품이나 홈스마트나 직업에서의 지시를 언어로 하는 등에도 사용됨으로써 장애인을 위해서는 매우 중요한 기술이다. 그 동안 이 음성인식은 인식률이 낮아 자유자재로 사용하기에는 한계가 있었다.

음성개인비서를 사용해 본 사람이라면 ‘잘 못 알아들었어요. 다시 말해 주세요’라든가, 엉뚱한 대답이나 반응을 경험해 본 경우가 있을 것이다. 음성인식 전문기업인 파워보이스에서 최근 자동 음성인식 솔루션 ‘보이스샵 음성인식 버전 1.0(Vois# STT ver.1.0)’을 출시하였다.

이 솔루션은 GS(Good Software) 인증 1등급을 획득하여, 음성-문자 변환 기술력을 입증받았다. 어떠한 상황에서도 실시간 음성을 자연어에 가깝게 변환해 준다. 음성인식에 인공지능 자율학습 기능이 탑재되어 딥러닝 기술을 활용한 서버 기반의 음성인식 기술을 적용해 높은 정확도를 자랑한다. 특히 한국어에서 발생할 수 있는 비정형화된 문장들을 오랜 기간 반복 학습시켜 콜센터, 회의, 스트리밍 영상 등 다양한 상황에서의 음성을 자연어에 가까운 문자로 변환하거나 음성 명령 수행이 가능하다. 연구개발 기간이 무려 20년이나 걸렸다.

이러한 보이스샵 음성인식 버전 1.0(Vois# STT ver.1.0)의 뛰어난 품질을 인정받아 지난달 최고 등급 국가 소프트웨어 품질인증 제도인 GS인증 1등급을 받았다.

GS인증은 한국정보통신기술협회(TTA) 산하 소프트웨어 시험인증연구소에서 소프트웨어의 기능 적합성, 성능 효율성, 사용성, 신뢰성, 보안성 등 9가지 엄격한 시험 절차를 통해 부여되는 권위적인 인증제도이다.

이번 인증 수여를 통해 뛰어난 변환 성능을 공식적으로 입증받은 것은 물론, 공공기관 우선 구매 제품으로도 지정되어 향후 민간은 물론 국가기관으로도 시장을 확대할 수 있게 됐다.

음성인식을 이용해 컴퓨터와 대화하는 장면. ⓒ서인환

파워보이스 정희석 대표는 “이 제품은 실시간 음성을 문자로 변환할 수 있는 동시에, 말하는 사람의 대화가 종료되는 지점까지 정확하게 검출 가능할 정도로 높은 정밀도를 갖고 있다”며, “20년간 음성 관련 회사를 운영하면서 쌓아온 빅데이터와 기술을 총 집대성한 제품이므로 품질에 대해서는 그 무엇보다 자신 있다”고 강조했다.

덧붙여 “미래에는 현재보다 인공지능, 로봇 등 음성을 활용하는 산업 분야가 많아지는 만큼, 향후에는 더욱 수요가 많아질 것으로 기대한다”고 전했다.

한편 정희석 대표는 이 기술을 장애인을 위해 사회 공헌할 의사도 밝혔다. 예를 들어 언어장애인이 말을 정확하게 발음하지 않아도 학습을 통해 음성을 인식하여 글로 나타내거나 정확한 음성으로 변환해 줄 수 있어 각종 회의나 세미나에서 발표문을 음성출력 프로그램을 이용해 대신 말하게 하였던 것을 이제는 직접 말을 하면 보다 정확한 발음으로 즉시 발표나 대화가 가능하게 된 것이다.

아직 장애인을 위한 프로그램이나 앱을 개발한 것은 아니고 원천기술만 개발한 단계이지만 장애인 관련 단체와 업계와 협력하여 장애인을 위한 다양한 기술을 개발해 나갈 것이며, 장애인들은 언어로 검색하거나 안내를 받거나 통역하거나 기록하는 등의 솔루션들을 개발해 나갈 수 있을 것으로 기대된다.

가장 정확한 음성인식 기술로 장애인의 다양한 일상생활을 지원해 줄 수 있는 기술의 응용 소프트웨어의 출현을 위해 장애인단체와 업계가 장애인 디지털솔루션위원회를 구성하고, 장애인용으로 개발이 이루어지면 장애인만이 아니라 모든 사람들이 편리하게 사용할 수 있도록 하기 위해서는 개발모델과 사업모델이 필요하다.

정부의 연구지원사업과 기업의 상용화를 위해 예산 지원이 필요하다. 상용화 제품을 개발하기 위해 많은 시간을 들이기 이전에 이미 장애인용으로 개발된 소프트웨어들에 이 기술을 먼저 무상으로 적용하여 사용의 편리성을 도모하자는 제안에 정희석 대표는 매우 반갑게 동의하며 적극지원하겠다고 하였다.

특수교육용 소프트웨어, 음성으로 쇼핑하기, 음성으로 금융결재하기, 언어훈련 프로그램, 장애인 길안내 시스템, 장애인 홈케어 서비스, 장애인 워드 프로세서, 장애인 통역 서비스, 방송물 자동 자막 생성 프로그램, 장애인 자율운전 서비스 등 그 적용 분야는 무궁무진할 것이고, 이 많은 응용 소프트웨어 개발을 위해 공동 위원회 구성과 이 위원회의 활동에 정부 지원을 기대해 본다.

-장애인 곁을 든든하게 지켜주는 대안언론 에이블뉴스(ablenews.co.kr)-

-에이블뉴스 기사 제보 및 보도자료 발송 ablenews@ablenews.co.kr-

서인환 칼럼니스트
현재 사단법인 장애인인권센터 회장, 한국장애인고용안정협회 고용안정지원본부장을 맡고 있다. 칼럼을 통해서는 아·태 장애인, 장애인운동 현장의 소식을 전하고 특히, 정부 복지정책 등 장애인들의 관심이 집중되고 있는 이슈에 대해 가감 없는 평가와 생각을 내비칠 예정이다.
저작권자 © 에이블뉴스 무단전재 및 재배포 금지