국립국어연구소와 통신종합연구소, 東京공업대학이 공동개발하고 있는 일본어의 언어자료 데이터베이스(DB)가 내년 봄에 일반에 공개되게 되었다. 자연스런 단어를 710만개, 660시간 분량의 음성을 수록할 예정으로 그 규모는 영국판 DB의 1,000만 단어, 1,220시간에 이어 세계 2위가 된다고 한다.
품사나 음성기호, 인토네이션을 나타내는 억양기호 등 언어연구에 필요한 정보도 아울러 등록한다. 유비쿼터스 시대를 대비한 음성인식, 음성합성기술의 연구개발에도 도움이 될 듯하다. 이 연구는 文部科學省의 과학기술진흥조정비의 대상이 된 연구 프로젝트 ‘구어의 언어적, 파라 언어적 구조의 해명에 기초한 구어공학의 구축’의 일환으로 진행되고 있다.
1,400명의 화자가 낸 음성을 디지털화하여 수록하고, 연구용 정보와 함께 차세대 정보교환언어인 XML(확장가능한 마크부(付) 언어)베이스로 검색할 수 있게 한다. 음성인식이나 자동요약 시스템 개발 등에 응용할 수 있다.
영국 내에서 일상적으로 사용되고 있는 구어를 모은 DB는 총 단어 수, 음성의 수록 시간 모두 일본어 DB를 상회하지만 일반에 공개하고 있는 것은 텍스트 정보 뿐으로 음성 그 자체를 공개하는 DB로서는 일본어판이 세계 최대 규모가 된다고 한다. (편집부)
기사를 사용하실 때는 아래 고유 링크 주소를 출처로 사용해주세요.
https://www.cerazine.net