솔트룩스파트너스 - 일상생활 및 구어체 한-중, 한-일 번역 병렬 말뭉치 데이터
리소스
-
PDF
(1-17-027) 데이터 구축 가이드라인.pdf
PDF
(1-17-027) 데이터 구축 가이드라인.pdf
-
PDF
(1-17-027) 데이터설명서.pdf
PDF
(1-17-027) 데이터설명서.pdf
-
ZIP
AI 모델 소스코드.zip
ZIP
AI 모델 소스코드.zip
-
ZIP
AI 모델 환경설치가이드.zip
ZIP
AI 모델 환경설치가이드.zip
항목 | 값 |
---|---|
CKAN dataset id | 3285d86d-c587-4341-bac5-e360baf52a10 |
상태 | active |
url | https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=546 |
버전 | 2023-05-03 |
라이선스 | cc-zero |
pricing | 무료 |
담당자 | 김영택 |
담당자 연락처 | 02-2193-1710 |
업데이트일 | 2,023-05-03 |
유/무료 | 무료 |
이용방법 | 다운로드 |
제공 기관 | 수행기관(주관) : 솔트룩스파트너스 |
최초 제공일 | 2,022-06-09 |
파일 크기 | 560,633,927 |
최초 수집 일시 | 2022-09-18T08:17:38… |
최근 수집 일시 | 2024-02-28T10:54:24… |
-
㈜ 트위그팜 - 일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터 AI 허브
• 신경망 기반 기계 번역기 학습 데이터로 활용하기 위한 한영, 영한 말뭉치 • 일상생활 및 구어체 번역기의 성능 향상을 위한 학습용 데이터 -
솔트룩스파트너스 - 한국어-영어 번역(병렬) 말뭉치 AI 허브
AI 번역 엔진 개발을 위한 뉴스(80만 장), 정부/지자체 홈페이지, 간행물(10만 문장), 행정 규칙, 자치법규(10만 문장), 한국 문화(10만 문장), 구어체(40만 문장), 대화체(10만 문장)의 학습용 문장을 구축한 자연어 데이터 제공 -
㈜솔트룩스 - 방송 콘텐츠 대화체 음성인식 데이터 AI 허브
자연스러우며 실제 잡음 환경이 결합된 다양한 형태의 발성, 발음을 확보하기 위해 실제 환경에서 대화하는 TV, 라디오의 고품질 방송 콘텐츠를 음성데이터를 wav 파일 형식으로 수집, 정제하여 발화자 말바뀜과 억양구 단위 경계정보를 추가하여 전사하고, 화자, 개인정보 및 차별화 혐오발언을 비식별화와 라벨링한 데이터를 json과 wav... -
㈜솔트룩스 - 주요 영역별 회의 음성인식 데이터 AI 허브
실제 환경, 시사토론, 독서모임, 온라인회의, 방송에서의 자연스러운 환경과 잡음이 결합된 회의 형태의 발성, 발음을 확보하기 위해 실제 환경에서 대화하는 TV, 라디오의 고품질 방송 콘텐츠, 의회 녹취록, UCC 음성 및 주제를 정한 직접 녹음 음성데이터를 wav 파일 형식으로 수집, 정제하여 발화자 말바뀜과 억양구 단위 경제정보를...