㈜솔트룩스 - 주요 영역별 회의 음성인식 데이터

실제 환경, 시사토론, 독서모임, 온라인회의, 방송에서의 자연스러운 환경과 잡음이 결합된 회의 형태의 발성, 발음을 확보하기 위해 실제 환경에서 대화하는 TV, 라디오의 고품질 방송 콘텐츠, 의회 녹취록, UCC 음성 및 주제를 정한 직접 녹음 음성데이터를 wav 파일 형식으로 수집, 정제하여 발화자 말바뀜과 억양구 단위 경제정보를 추가하여 전사하고, 화자, 개인정보 및 차별화 혐오발언을 비식별화와 라벨링한 데이터를 json과 wav 파일을 한 쌍으로 7,000시간, 3인 이상 대화 10개 카테고리의 다양성을 고려하여 학습데이터를 구축하고, 레퍼런스가 검증되고 한글 음성에 적합하게 커스트마이징 한 ESPnet의 컨포머를 적용하여 학습모델을 개발

리소스

항목
CKAN dataset id ebe67211-5517-49de-a141-6cb37df471b2
상태 active
url https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=464
버전 2023-12-12
라이선스 cc-zero
pricing 무료
담당자 2
담당자 연락처 음성인식
업데이트일 2,023-12-12
유/무료 무료
이용방법 다운로드
제공 기관 수행기관(주관) : ㈜솔트룩스
최초 제공일 2,022-05-27
파일 크기 605,302,103,454
최초 수집 일시 2022-09-18T08:18:40…
최근 수집 일시 2024-02-28T10:58:17…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기