서울--(뉴스와이어)--음성 기반 인공지능(AI) 전문 기업 미디어젠은 과학기술정보통신부의 기금 사업으로 한국지능정보사회진흥원(NIA)이 추진하는 ‘2021 인공지능(AI) 학습용 데이터 구축 사업’에서 △화자 인식용 음성 데이터 구축 △아동 음성 데이터 구축 △다화자 음성합성 데이터 구축 3개 사업 주관 기관으로 선정됐다고 밝혔다.
미디어젠은 지난해 AI 학습용 데이터 구축 1차, 2차 사업에도 선정돼 성공적으로 과제 수행을 마친 이력이 있다. 지난해 성과를 바탕으로 올해까지 2년 연속 선정돼 AI 데이터 구축을 진행하고 있다.
미디어젠이 수행하는 첫 번째 사업 ‘화자 인식용 음성 데이터 구축’ 사업은 미디어젠이 주관하며 메트릭스리서치·비디·인천대학교가 참여한다. 이 사업을 통해 7000시간 분량의 화자 인식용 음성 데이터 및 4500시간 분량의 가창 데이터를 구축한다. 이는 미디어젠의 신규 사업 분야인 음성 AI 엔진과 인공지능 가수(AI Singer)에 모두 활용될 수 있다는 점에서 관심을 끌고 있다.
미디어젠 윤종성 수석 연구원은 “미디어젠은 앞으로 AI 기술 활성화에 주력하면서 다양한 영역에서 AI 서비스 구축과 신시장 진출을 확대하고, 이번 과제로 수집된 데이터를 모두 일반에 공개해 AI 산업 발전에 이바지할 예정”이라고 말했다.
두 번째 사업인 ‘아동 음성 데이터 구축’은 미디어젠이 주관하며 메트릭스리서치·비디·아이포트폴리오·방정환 재단이 참여한다. 이 사업을 통해 2500명이 넘는 아동의 한국어 음성 5000시간 분량을 수집하고, 5000명이 넘는 아동의 영어 음성을 5000시간 분량 수집한다.
미디어젠 윤성준 부사장은 “기존 음성 인식 데이터는 성인 위주로 돼 아동 음성 데이터가 부족한 현실이다. 이에 따라 아동 음성 인식률은 크게 낮으며 이번 사업을 통해 이를 개선할 것으로 기대하고 있다. 이는 국어 교육, 아동용 콘텐츠 생성, 인공지능 로봇 등의 분야에 활용할 수 있을 것으로 보고 있다”며 “아동 영어 데이터로는 인공지능 영어 튜터를 개발, 아동의 눈높이에 맞는 영어 학습에 활용할 수 있다. 마찬가지로 아동 영어 인식 성능에 큰 개선 효과를 볼 수 있을 것”이라고 말했다.
세 번째 사업인 ‘다화자 음성합성 데이터 구축’은 미디어젠이 주관하며 애드사운드가 참여한다. 이 사업을 통해 4500명의 일반인 화자에 대해 1만 시간 분량의 음성을 수집하고, 12종류의 감성·스타일로 분류한 성우들의 음성 데이터를 구축한다.
미디어젠 송민규 상무는 “AI 기술 발전으로 서비스의 지능화 수준이 올라갈수록 자유 대화형 UI가 많아질 것이고, 이에 따라 앞으로 음성 합성 서비스를 활용할 분야가 늘어날 것”이라며 “음성 합성 서비스 개발을 촉진할 수 있도록 다화자 음성 합성 데이터와 감성·발화 스타일별 음성 합성 데이터를 구축하고, 국내 음성 AI 기술의 발전을 도모할 계획”이라고 말했다.
미디어젠은 이번 인공지능 학습용 데이터 구축을 통해 방대한 AI 데이터를 수집·활용해 음성 AI 엔진의 성능을 더 높일 계획이다. 또 앞으로 AI 기술을 활성화하는 데 주력해 주요 산업별 최적화한 온디맨드 AI 플랫폼을 제공, 이와 관련된 AI 솔루션 시장 선점이 기대된다.
미디어젠 개요
미디어젠은 음성 인식 기술의 한 길만을 걸어온 국내 No.1 음성 인식 솔루션 전문 기업이다.