2021년 무하유의 자기소개서 123만여 건 대상 분석 결과
서울--(뉴스와이어)--자연어를 이해하는 실용AI 기술 기업 무하유(대표 신동호)가 인공지능(AI) 채용 솔루션 ‘프리즘’을 통해 지난해 한 해 검토한 123만 건의 자기소개서 데이터를 분석한 결과를 7일 공개했다.
글자 수 미달·회사명 오기재 등의 ‘결함’은 39%, ‘블라인드 위반’은 37%, 30% 이상 표절한 자기소개서도 47%에 달했다.
무하유는 2011년 출시한 논문 표절 검사 솔루션 ‘카피킬러’를 통해 자연어처리(NLP) 노하우를 쌓아왔다. 이를 통해 단순 매칭이 아닌 자기소개서의 문맥까지 읽어내는 AI를 통해 결함, 블라인드, 표절은 물론 업무 적합성까지 평가하는 채용 솔루션 프리즘을 개발했다.
채용 담당자 육안으로는 절대 알아채지 못하는 표절과 구직자들 또한 놓치기 쉬운 오기재, 반복 기재, 블라인드 위반 요소까지 프리즘은 검출할 수 있다. 사람이 자기소개서를 검토하는 평균 시간은 10분인 반면, 프리즘의 AI는 평균 8초로, 소요되는 시간도 획기적으로 줄였다.
이런 기술력을 인정받아 현재 민간부터 공공 영역에서 270여 개사가 프리즘을 이용 중이다. 프리즘은 채용 1회당 평균 3000건 내외, 지난해 한 해에만 123만 건이 넘는 문서를 검토했다. 이를 분석한 결과, 결함은 39%, 블라인드 위반 37%, 그리고 30% 이상의 표절률을 보인 자기소개서도 47%에 달했다.
결함 검사에서 ‘반복 단어’, ‘반복 문항’, ‘글자 수’ 이 세 가지는 1건만 적발이 돼도 탈락 처리하는 중대 결함으로 기업들이 많이 선정하는 요소다. 실제 123만 건 중 39%가 검출된 ‘결함’ 중 글자 수 미달이 26%로 가장 많았고, 반복 문항도 13%로 나왔다. 한 은행 검사 문서 1만2256건 중 중대 결함이 포함된 문서의 비율이 70%에 육박하기도 했다. 그 외 회사명 오기재(13%), 타기업 지원(11%) 등도 많이 발견됐다.
많은 기업이 도입한 블라인드 평가에서 또한 37%의 자기소개서가 위반 요소를 포함하고 있었다. 블라인드에서 중대 결함은 출신 대학교, 지원자 이름, 가족 직업 세 가지가 많이 꼽힌다. 이 중 지원자 이름을 노출한 경우가 40%로 가장 많았고, 성별을 노출한 경우가 31%, 그 외 가족 직업도 13%가 검출됐다. 오히려 출신 대학명은 0.9%로 비교적 적었다.
한 연구원 검사 문서 수 209건 중 중대 결함이 포함된 문서 비율이 86% 이상 나오기도 했다. 특히 군복무 키워드는 지원자들도 미처 생각하지 못하고 쓰는 사례 중 하나다. 블라인드 채용 시 성별을 드러내면 안 되기 때문에 ‘전문 연구 요원’, ‘병장’, ‘병역 특례’ 등의 키워드는 모두 프리즘에 의해 검출된다.
자기소개서는 글자 수가 많지 않고, 쓸 수 있는 표현이나 내용이 한정적이어서 논문이나 보고서(표절률 15~20% 이상일 때 위험)에 비해 기업의 경우 30~50% 수준으로 표절률 기준이 낮은 편이다. 그럼에도 프리즘 데이터 123만 건 중 47%의 자기소개서가 표절률 30% 이상을 보였다. 잡 포털 합격 자기소개서, 인터넷 기사, 기업 홈페이지 등이 지원자가 많이 표절하는 문서로 꼽힌다. 특히 지원 기업 홈페이지의 설명 글을 본인의 생각과 판단인 것처럼 기재하는 것도 표절로, 실제 많은 수가 프리즘에 의해 검출됐다.
신동호 무하유 대표는 “채용 담당자가 직접 육안으로 자기소개서를 읽어보고 평가할 때는 결함이나 표절, 블라인드 요소가 얼마나 포함돼 있는지, 어떤 부분이 해당하는지 찾아내기 어렵지만 프리즘에서는 단시간에 파악할 수 있다”며 “불성실한 자소서를 사전 필터링할 수 있는 것은 물론, 직무 적합도나 심층 질문까지 제시해 주는 프리즘을 이용하면 인사 담당자들은 반복되는 서류 검토 외에 더욱 가치 있는 일해 집중할 수 있을 것”이라고 말했다.
무하유 개요
무하유는 자연어 분석 AI 기술 전문 기업으로 인공지능 채용 서류 분석 서비스인 카피킬러HR과 표절 검사 시장 점유율 1위의 표절 검사 서비스인 카피킬러를 개발 및 공급하고 있다. 무하유는 무한하게 쌓이는 데이터 때문에 발생하는 사람의 물리적인 한계를 AI 기술을 통해 극복하고자 한다. 기존의 필요한 정보만을 추출하는 기술을 넘어 데이터 속에 숨겨진 의미와 인사이트를 AI 기술로 분석한다. 데이터를 다루는 고객이 겪는 문제를 해결하고 글을 쓰는 데 필요한 도구, 잘 읽을 수 있는 서비스를 제공한다.