-
국립국어원 - 한국어-태국어 병렬 말뭉치 2022 모두의 말뭉치
(버전 1.0) 한국어 문어와 구어 자료를 필리핀 태국어로 번역하여 구성한 병렬 말뭉치입니다. -
국립국어원 - 한국어-러시아어 병렬 말뭉치 2022 모두의 말뭉치
(버전 1.0) 한국어 문어와 구어 자료를 러시아어로 번역하여 구성한 병렬 말뭉치입니다. -
국립국어원 - 한국어-캄보디아 크메르어 병렬 말뭉치 2022 모두의 말뭉치
(버전 1.0) 한국어 문어와 구어 자료를 캄보디아 크메르어로 번역하여 구성한 병렬 말뭉치입니다. -
국립국어원 - 한국어-인도네시아어 병렬 말뭉치 2022 모두의 말뭉치
(버전 1.0) 한국어 문어와 구어 자료를 인도네시아어로 번역하여 구성한 병렬 말뭉치입니다. -
㈜비네아 - 한국어 지식기반 관계 데이터 AI 허브
문장 내 등장하는 개체(Named Entity) 사이의 관계(Relation) 및 그 속성을 라벨링하여, 문맥 속에서 개체 간 관계 등 다양한 분야의 의미 기반 관계 분석이 가능한 인공지능 학습용 데이터셋을 구축함 -
인사이트베슬 - 대화/구어체 한영 말뭉치 코퍼스 데이터 15만 건 [데이터셋1호] 유통 빅데이터 유료
실제 대화, 발화, 영상을 번역하면서 파생된 한영 말뭉치. 한영/영한 번역 AI에 필수적인 데이터이며 추가로 코퍼스 연구나 언어 교육 자료 제작에도 사용될 수 있는 데이터. 1차 MTPE로 생성되었고, 2차, 3차 전문가 교정, 4차 데이터 검수완료 • 데이터는 한영 말뭉치 언어 데이터로써 대화, 번역, 챗봇, 콘텐츠 번역... -
국립국어원 - 2022 인공지능 언어 능력 평가 말뭉치: ABSA 모두의 말뭉치
(버전 1.0) 2022년 국립국어원 인공지능 언어 능력 평가 대회 과제 말뭉치입니다. -
트위그팜 - AI 허브 데이터 활용을 위한 기계 번역앱 구축과 번역기 평가 및 신규 말뭉치 구축 AI 허브
• 번역 메모리(TM)로 활용할 AI 허브 공개 데이터의 정제·검수 데이터 • 기계 번역기 성능 향상을 위한 신규 말뭉치를 비롯한 비교 평가 데이터 -
(주)에버트란 - 방송콘텐츠 한국어-영어 통번역 음성 데이터 AI 허브
인공지능 학습용 다국어 방송콘텐츠 번역 말뭉치 구축 방송 콘텐츠 분야의 영어, 스페인어, 러시아어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 통·번역 데이터 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural... -
미니게이트 - 한국어-다국어 번역 말뭉치 (인문학) AI 허브
인문학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 인문학 분야 다국어(영어, 중국어, 일본어) 번역 말뭉치 데이터 -
미니게이트 - 한국어-다국어 번역 말뭉치(기초과학) AI 허브
기초과학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 기초과학 분야 다국어(영어, 중국어, 일본어) 번역 말뭉치 데이터 -
포티투마루 - 전문분야 말뭉치 AI 허브
상대적으로 성능 확보가 어려운 전문 분야에 대한 자연어 처리(Natural Language Processing) 학습용 말뭉치 데이터 구축 -
(주)에버트란 - 방송콘텐츠 한국어-영어 번역 말뭉치 AI 허브
인공지능 학습용 다국어 방송콘텐츠 번역 말뭉치 구축 방송 콘텐츠 분야의 영어, 스페인어, 러시아어 통·번역 성능 향상을 통해 한국 문화 확산 및 콘텐츠 산업 활성화를 위한 한국어 방송 콘텐츠의 인공지능 학습용 통·번역 데이터 상황별 신조어, 약어, 은어, 관용적 의미와 어투까지 효과적으로 전달할 수 있는 인공신경망기계번역(Neural... -
플리토 - 전문분야 한영 말뭉치 AI 허브
AI기반 자동 번역 기술 개발을 위해 고품질의 한-영 병렬 말뭉치 150만 이상의 문장을 학습용 번역 데이터로 구축하여 특화된 맞춤 번역기 서비스 제공 -
솔트룩스파트너스 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 AI 허브
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공 -
미니게이트 - 한국어-다국어(영어 제외) 번역 말뭉치(기술과학) AI 허브
기술과학 30만 문장 이상의 원시데이터에 대한 인공지능 학습용 데이터 저작권 확보 후 중분류 5개 분야, 소분류 10개 분야로 분류하여 원시데이터를 수집하고 정제, 가공(특수라벨링/번역), 검수 작업을 실시하여 공공/산업전반에 빅데이터로 활용할 수 있는 기술과학 분야 다국어(중국어, 일본어) 번역 말뭉치 데이터 -
솔트룩스이노베이션 - 다국어 구어체 번역 병렬 말뭉치 데이터 AI 허브
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공 -
특허청 KIPRISPlus 특허 영한 코퍼스(말뭉치) 공공데이터포털
2021년도 공공데이터 기업매칭 지원사업으로 구축된 데이터입니다. 약 15만건 이상의 양질의 학습용 한영 병렬 말뭉치 데이터를 CSV형태로 개방하고 있습니다. -
특허청 KIPRISPlus 특허 중한 코퍼스(말뭉치) 공공데이터포털
2021년도 공공데이터 기업매칭 지원사업을 통하여 개방되는 데이터로, 15만건의 중한 특허 번역 말뭉치 데이터를 CSV파일로 개방합니다. -
문화체육관광부 국립국어원 한국어 학습자 말뭉치 나눔터 공공데이터포털
한국어 학습자 말뭉치란 제2 언어 또는 외국어로 한국어를 배우는 학습자들이 산출한 텍스트 및 담화 자료를 수집하여 컴퓨터가 읽을 수 있는 형태로 전산화한 언어 자료