도쿄, 일본--(뉴스와이어)--비주얼 뱅크(Visual Bank Inc., 최고경영자: 나가이 사네유키(Saneyuki Nagai))가 40년 이상의 역사를 자랑하는 일본 마케팅·광고 업계 최대 디지털 자산 제공업체이자 자회사인 아마나이미지스(amanaimages Inc.)를 통해 고성능 일본어 음성 기반 모델(Foundation Model)을 구축하는 개발자들을 위한 프리미엄 AI 학습 데이터 솔루션 ‘클린 데이터셋(Qlean Dataset)’의 대대적인 확장을 발표했다.
이번 확장은 저작권 리스크가 완전히 해소된 고품질 AI 학습 및 대규모 데이터 애플리케이션용 데이터를 연구개발(R&D) 기관에 제공하는 데 주력해 온 클린 데이터셋 사업부의 최신 성과다. 이를 통해 비주얼 뱅크는 화자 특성 및 주제 영역별로 세밀하게 구조화된 일본어 음성 말뭉치(Corpus) 분야에서 독보적인 데이터 인프라 제공 기업으로 확고히 자리매김하게 됐다.
AI 개발자를 위한 핵심 기능
· 상업적 이용이 가능한 권리 관계 해결 데이터
모든 데이터셋은 상업적 목적의 사용을 위해 저작권 확보가 완벽하게 완료되었으며 GDPR(일반데이터보호규칙) 및 CCPA(캘리포니아주 소비자프라이버시법) 등 글로벌 데이터 규제 표준을 엄격하게 준수한다.
· 초고음질 오디오 에셋
48kHz/16bit 이상의 고해상도 녹음을 통해 스튜디오 수준의 선명한 음성과 현장감 넘치는 음향 환경을 모두 생생하게 담아냈다.
· 전문가 그룹의 정밀한 어노테이션(데이터 라벨링)
원어민 수준의 정확한 전사본(Transcripts)과 구조화된 메타데이터를 결합해 AI 개발에 즉시 투입 가능한 최적의 학습용 데이터셋을 제공한다.
· 안전성 및 모더레이션 데이터셋
혐오 발언(Hate speech)이나 악의적인 프롬프트 등 유해한 언어 패턴을 AI가 정확히 탐지하고 필터링할 수 있도록 돕는 특화 데이터셋을 지원한다.
· 일본어 특화 평가 데이터셋
일본어 특유의 추론 방식과 언어의 미세한 뉘앙스를 정확히 측정할 수 있도록 MMSU(Massive Multitask Speech Understanding) 등 글로벌 벤치마크 기준을 충족하는 평가 데이터셋을 제공한다.
· 일본 고유의 음향 환경 데이터
전통 악기, 신사(Shrine), 복잡한 도심 환경 등 일본만의 고유한 특성이 반영된 오디오 데이터를 통해 멀티모달(Multimodal) 및 공간 AI(Spatial AI) 기술 고도화를 뒷받침한다.
이러한 데이터셋은 ‘AI 데이터 레시피(AI Data Recipe)’ 솔루션을 통해 제공된다. 이는 즉시 사용 가능한 형태의 기성 데이터셋은 물론, 특정 AI 모델 아키텍처나 개발사의 세부 요구 사항에 맞춰 화자 섭외(Casting), 녹음, 데이터 라벨링까지 맞춤형으로 지원하는 매우 유연한 데이터 생산 솔루션이다.
나가이 사네유키 비주얼 뱅크 최고경영자(CEO)는 “문화적 맥락을 깊이 이해하는 기반 모델(Foundation Models)에 대한 글로벌 수요가 폭발적으로 증가함에 따라, 법적 리스크가 없는 고품질의 일본어 학습 데이터 확보가 그 어느 때보다 중요해지고 있다”라며 “비주얼 뱅크는 엄격한 데이터 전처리 및 엔지니어링 과정을 거쳐, 가공되지 않은 원시(Raw) 콘텐츠와 즉시 서비스에 투입 가능한 프로덕션급 AI 시스템 사이의 간극을 완벽하게 메우는 데 전력을 다하고 있다”라고 강조했다.
AI Data Recipe
https://qleandataset.visual-bank.co.jp/en/lineup
일본어 코퍼스(말뭉치)
https://qleandataset.visual-bank.co.jp/en/products/japanese-language-corpora
이 보도자료는 해당 기업에서 원하는 언어로 작성한 원문을 한국어로 번역한 것이다. 그러므로 번역문의 정확한 사실 확인을 위해서는 원문 대조 절차를 거쳐야 한다. 처음 작성된 원문만이 공식적인 효력을 갖는 발표로 인정되며 모든 법적 책임은 원문에 한해 유효하다.
사진/멀티미디어 자료 : https://www.businesswire.com/news/home/20260401752248/en