7백명 음성DB, 20만문장, 음성인식, 자동통번역에 단비역할

   
자동통역연구실 이영직 책임연구원이 원내 보관되어 있는 음성DB 관련자료를 소개해 보이고 있다.

ETRI(한국전자통신연구원, 원장 김흥남)는 미래창조과학부와 한국정보화진흥원의 국가DB사업 지원을 통해 지난 2011년부터 구축해온 “스마트 모바일용 다국어 언어음성DB” 중 스페인어 DB 20만 문장을 일반에 유료 배포한다고 3일 밝혔다.

ETRI가 이번에 배포하는 DB는 ▲스페인어 대화체 음성DB ▲한국어-스페인어 대화체 대역문장DB 등의 언어음성DB다. 이는 우리가 여행이나 일상생활에서 말하는 대화체(구어체) 문장으로 이루어졌으며, 동원된 음성DB는 7백명분에 달한다. 자동통역의 정확성을 높이기 위해서는 구어체 DB가 반드시 필요하다.

스페인어 구어체와 관련해선 ETRI가 국내 최초로 배포하는 것이며 다국어 음성인식 및 자동번역 기술, 영어교육 개발 등에 널리 활용될 전망이다.
특히 이번 ETRI가 공개하는 DB는 국가DB사업에서 요구하는 99.9%의 품질 수준에 합격한 대규모의 언어음성 DB다.

따라서 본 DB를 활용할 경우 언어음성기술의 완성도를 보다 더 높일 수 있으며, 신규시장 창출 및 국제경쟁력 강화에도 큰 기여를 할 것으로 보인다.

ETRI는 외국어의 경우, 어떤 음성언어 DB가 필요한지에 대한 판단과 설계가 중요하다며 향후 필요한 다국어DB 솔루션의 중요성도 강조했다.

현재 국내 업체와 애플, 구글 등 세계적 기업 간에는 스마트폰, 스마트카, 스마트TV 등 스마트 모바일 인터페이스 분야의 경쟁이 치열하다.

국내 스마트폰의 번역기들은 한국어, 중국어, 프랑스어, 독일어, 이탈리아어, 일본어, 포르투갈어, 스페인어를 번역해주는 기능을 갖추고 있다. 국내 기술로 자체개발한 DB를 이용키도 하지만 국내 DB가 없을 때는 외국에서 개발한 음성인식 및 번역엔진을 도입, 탑재하는 형편이다. 따라서 이 분야의 기술 자립을 위해서는 다국어 언어음성DB 구축이 시급한 상황이다.

언어음성DB의 구축에는 철저한 품질 관리가 따르므로, 언어음성DB는 그 가격이 비싸다. 유럽 ELRA(European Language Resources Association) 등 해외로부터 일부 외국어 DB 구입이 가능하나, 3백~5백명이 발화한 음성DB의 경우 1~2억 원 정도의 비용이 소요된다.

이에 따라 정부출연연구원이 직접 나서서 DB를 보급함에 따라 향후 스마트 인터페이스 분야서 외국산 제품의 시장점유를 줄이는 데도 큰 역할을 할 것으로 기대된다.

ETRI는 산업계의 요구에 부응, 지난 2007년부터 한·영·일·중 등 다국어 언어음성DB를 구축·배포해 왔으며, 지난해에는 스페인어를 추가하고, 올해 프랑스어를 추가 구축할 예정이다.

그동안 ETRI가 배포한 DB업체로는 삼성전자, LG전자, KT, NHN, 다음, 보이스웨어, 쓰리소프트, 트란소노, 인피니티텔레콤, 디오텍, 시리우스소프트, CSLI, 솔트룩스 등이 있다.

ETRI는 이번 스페인어 DB를 배포하면서 기존 ▲중국어 대화체 음성DB ▲일본어 대화체 음성DB 등을 업데이트해 각각 4백명분과 3백명분 음성DB도 추가 보강했다고 밝혔다.

ETRI는 올해 2월 현재, 국내 54개 기관에 208개 DB를 배포, 총 360억원에 해당하는 비용 절감 성과를 얻었다. 이번에 배포하는 총 4종의 DB를 국내 10개 기관에 배포할 경우 최소 60억원의 수입대체효과가 있다고 설명했다.

향후 ETRI는 국가DB사업을 통해 오는 2017년까지 프랑스어 이외에도 독일어, 러시아어, 동남아어로까지 확장해 DB를 보급할 계획이다. 이번 언어음성 DB와 관련 관심있는 업체는 ETRI 자동통역연구실로 문의하면 된다.(☎ 042-860-6169)


저작권자 © 디트NEWS24 무단전재 및 재배포 금지