무하유가 ‘국회도서관 융복합서비스 데이터셋 구축 사업’ 주관 사업자로 선정됐다
서울--(뉴스와이어)--자연어를 이해하는 실용 인공지능(AI) 기업 무하유(대표 신동호)가 ‘국회도서관 융복합서비스 데이터셋 구축 사업’의 주관 사업자로 선정됐다. 이를 통해 국내 법률 관련 인공지능 학습용 데이터셋을 구축하고, 어려운 법률 용어를 대화형 문답으로 더 쉽게 설명할 수 있다.
무하유는 이번 사업을 통해 국회도서관이 제공하고 있는 ‘인공지능 법률 Q&A’ 서비스에서 자연어 질의응답 서비스를 실현하기 위한 질의 답변 등의 데이터셋을 구축할 예정이다. 법률에 해당하는 이슈 키워드와 제개정일·의안·회의록·주요 사건 및 인물에 대한 정보는 물론, 통계 표의 제목 및 매칭 키워드 등을 구축할 계획이다.
일반적인 데이터 구축·라벨링 업체는 수요 기관의 요구 사항에 따라 라벨링 후 납품까지의 역할만 수행하고, 납품 이후 실제 데이터셋 활용을 고려하지 않는 경우가 많다. 이에 반해 무하유는 700만건이 넘는 AI 학습 데이터를 구축해 온 노하우를 토대로 데이터 관리 올인원 플랫폼인 ‘데이터 팩토리’를 운영하고 있다. AI 적용 솔루션을 운영하는 과정에서 필요한 데이터를 자체적으로 구축한 후 정제·가공하기 때문에 인력 소싱, 계약, 데이터 구축, 품질관리, 저작권 관리까지 가능하다.
특히 데이터 팩토리는 AI와 인간의 협업을 통해 데이터셋을 구축하는 ‘휴먼 인 더 루프(Human In The Loop)’ 프로세스를 통해 업무 자동화를 혁신하고 있다. AI를 활용해 추출한 데이터를 사람이 직접 검증하고 수정할 수 있는 시스템을 추가해 데이터 품질을 보장한다. 대량으로 생성해야 하는 데이터는 AI가 담당하고, 생성된 데이터의 품질을 고도화하는 건 사람이 담당해 시간을 단축하고 품질을 제고하는 식이다. 실제 일부 작업의 경우 기존에 사람이 처리할 때 약 한 달이 걸렸지만, 데이터 팩토리를 활용해 3일 만에 완료하는 성과를 달성했다.
챗GPT의 등장 이후 AI 학습 데이터에 대한 저작권 및 소유권 우려도 해소할 수 있다. 전통적인 데이터베이스 구축 사업은 인력 공급 및 일정 준수에 초점이 맞춰져 있으며, 저작권 등 잠재적 위협에는 상대적으로 취약했다. 반면 무하유의 데이터 팩토리는 작업자별 품질 관리가 가능하고, 저작권 관계를 명확히 할 수 있어 법적 분쟁 요소나 품질 저하 요소 최소화에 기여할 수 있다.
한편 무하유는 2011년 AI 기반 표절 검사 서비스 ‘카피킬러’를 내놓은 데 이어 채용 자동화를 위한 서류평가 서비스 ‘프리즘’, 국내 최초의 대화형 AI 면접 서비스 ‘몬스터’ 등을 운영하고 있다. 카피킬러를 통해 대학 및 학생들의 연구 윤리 갈증을 해소해 온 경험을 토대로 AI가 생성한 글의 유효성을 평가하고, 궁극적으로 문서 또는 서류 업무의 효율을 향상시킬 수 있는 분야로 꾸준히 확대해 나가고 있다.
무하유 신동호 대표는 “앞으로 데이터 팩토리 플랫폼을 통해 기업체들의 데이터 구축 욕구를 해소할 계획이다. 인공지능 학습 데이터 시장은 더 세분화될 것으로 전망되며, 이에 따른 데이터 구축 방법론을 제공할 수 있을 것으로 기대한다”고 했다.