솔트룩스 - 온라인 구어체 말뭉치 데이터
리소스
-
PDF
1-19-31 온라인 구어체 대규모 한국어 말뭉치 데이터셋_구축가이드라인.pdf
PDF
1-19-31 온라인 구어체 대규모 한국어 말뭉치 데이터셋_구축가이드라인.pdf
-
PDF
[데이터설명서] 1-19-31 대규모 한국어 말뭉치 온라인 구어체.pdf
PDF
[데이터설명서] 1-19-31 대규모 한국어 말뭉치 온라인 구어체.pdf
항목 | 값 |
---|---|
CKAN dataset id | 41d35dc7-e822-4a7b-b80a-4db36d610634 |
상태 | active |
url | https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=625 |
버전 | 2023-12-04 |
라이선스 | cc-zero |
pricing | 무료 |
담당자 | 방재준 |
담당자 연락처 | 02-2193-1682 |
업데이트일 | 2,023-12-04 |
유/무료 | 무료 |
이용방법 | 다운로드 |
제공 기관 | 수행기관(주관) : 솔트룩스 |
최초 제공일 | 2,022-06-24 |
파일 크기 | 1,709,023,594 |
최초 수집 일시 | 2022-09-18T08:16:29… |
최근 수집 일시 | 2024-02-28T10:54:45… |
-
솔트룩스이노베이션 - 다국어 구어체 번역 병렬 말뭉치 데이터 AI 허브
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공 -
솔트룩스파트너스 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터 AI 허브
범용성 높은 한국어-다국어 간 구어체 번역 말뭉치로써, 데이터 경쟁 시대에서 정부 주도의 인공지능 학습용 데이터로 활용 가능한 데이터로 제공 -
솔트룩스파트너스 - 한국어-영어 번역(병렬) 말뭉치 AI 허브
AI 번역 엔진 개발을 위한 뉴스(80만 장), 정부/지자체 홈페이지, 간행물(10만 문장), 행정 규칙, 자치법규(10만 문장), 한국 문화(10만 문장), 구어체(40만 문장), 대화체(10만 문장)의 학습용 문장을 구축한 자연어 데이터 제공 -
㈜솔트룩스 - 방송 콘텐츠 대화체 음성인식 데이터 AI 허브
자연스러우며 실제 잡음 환경이 결합된 다양한 형태의 발성, 발음을 확보하기 위해 실제 환경에서 대화하는 TV, 라디오의 고품질 방송 콘텐츠를 음성데이터를 wav 파일 형식으로 수집, 정제하여 발화자 말바뀜과 억양구 단위 경계정보를 추가하여 전사하고, 화자, 개인정보 및 차별화 혐오발언을 비식별화와 라벨링한 데이터를 json과 wav...