-
서강대학교 자연어처리 연구실 - 한국어 어체 변환 데이터셋 AI 허브
한국어 대화 시스템에서 활용도가 가장 높은 해요체, 합쇼체, 반말체를 대상으로 한국어 문장을 제작, 수집 체계를 마련하고 관련 정보를 레이블링 한국어 문법에 대한 지식을 보유하고 있는 대학원생이 문장을 분석하고 어체 문장을 작성하는 방식으로 수집 의료 도메인 대화 1,940 문장, 일상, 오피스 대화 672 문장을 수집 역-변환... -
고려대학교 산학협력단 - 한국어-영어 합성 기계번역 품질 예측 데이터셋 AI 허브
한국어-영어 합성 기계번역 품질 예측 데이터(A Synthetic Quality Estimation Dataset for Korean-English Neural Machine Translation, QUAK)는 한국어 문장과 영어 기계번역 문장을 참조하여 각 문장들에 대한 기계번역 결과 품질을 토큰별 OK/BAD 태그로 예측하는... -
무하유 - 채용면접 인터뷰 데이터 AI 허브
실제 채용면접과 유사한 환경의 질문과 답변의 음성을 제작하여 텍스트로 변환한후 내용 요약, 채용면접에서 표현되는 답변의 감정과 의도를 라벨링하여 원격 면접의 서비스를 고도화 -
NHN다이퀘스트 - 한국인 외래어 발화 AI 허브
통역과 번역의 과정 없이 바로 한국어 음성 또는 텍스트 데이터에 맵핑할 수 있는 외래어 발화 음성 데이터 -
동양시스템즈 - 다양한 형태의 한글 문자 OCR AI 허브
한글의 광학글자인식(OCR, Optical Character Recognition) 알고리즘 성능 개선을 위한 다양한 형태(테이블 내 텍스트, 숫자, 문장부호 등 포함)의 한글 글자체(인쇄체 + 손글씨) 데이터셋 구축 -
NHN다이퀘스트 - 자유대화 음성(소아남여, 유아 등 혼합) AI 허브
한국인 중 소아남녀의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 한국어 음성 데이터 -
NHN다이퀘스트 - 자유대화 음성(일반남여) AI 허브
한국인 중 일반남녀의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 한국어 음성 데이터 -
고려대학교산학협력단 - 의료, 법률 전문 서적 말뭉치 AI 허브
저작재산권 이용허락을 확보한 의료 및 법률 분야 핵심 전문 도서와 분야 전문성과 최신성을 갖춘 특허(의료), 판결문(법률)을 기반으로 1억 어절의 데이터셋을 구축 -
㈜스피치랩스 - 한국어 대학 강의 데이터 AI 허브
한국어 강의 영상 및 음성을 인식하여 자막 생성 등의 서비스를 위한 인공지능 학습용 한국어 대학 강의 분야 음성데이터 구축 -
㈜나라지식정보 - 일반상식 문장 생성 평가 데이터 AI 허브
■ 기계가 생성한 문장과 인간이 생성한 문장을 다섯 가지 기준에 따라 평가함으로써 향후 AI가 생성한 문장을 AI가 검증할 수 있도록 하는 데이 ■ 한국어 일반상식 문장 평가 과제 중 세 번째 데이터로서 두 번째 데이터(제2과제 데이터)에서 제작한 문장에 대해 사람이 만든 문장과 기계가 생성한 문장을 네 가지 속성에 따라 3점 리커트... -
고려대학교 산학협력단 - 윤리 및 사회적 문제를 초래하는 기계번역 오류 탐지를 위한 학습 데이터셋 AI 허브
기계번역 결과에 포함된 오류는 불완전한 의미의 왜곡으로 이어지면서 때로는 사용자로 하여금 불편한 반응을 야기하거나 사회적 파장을 초래하는 경우가 존재한다. KoCED(English-Korean Critical Error Detection) 데이터셋은 영어-한국어 기계번역에서 나타나는 치명적 오류들을 감지하는 모델 학습을 위한 것이며,... -
NHN다이퀘스트 - 자유대화 음성(노인남여) AI 허브
한국인 중 노인남녀의 음성을 문자로 바꾸어 주고, 문맥을 이해하는 한국어 음성언어처리 기술 개발을 위한 한국어 음성 데이터 -
바이브컴퍼니 - 한국어 대화 요약 AI 허브
일상 대화, 토론 등 다양한 유형의 한국어 대화 원문 텍스트 데이터를 기반으로 한국어 대화 요약 AI 기술 개발을 위한 한국어 대화 요약 텍스트 데이터