에이아이스페라 - 커뮤니티 워드클라우드

□데이터 구성국내 최초 코로나19 확진자 발생 5일전인 1월 15일부터 3월 5일까지의 데이터로 구성되어 있으며, 세부 내용은 아래와 같습니다.□기간 - 2020년 1월 15일 ~ 2020년 3월 5일 (총 51일) - 총 7주(49일)하고, 2일간의 데이터를 제공함 - 국내 첫 확진자 발생일인 1월 20일 5일 전인 1월 15일부터 데이터를 제공함□데이터 소스: 4개 (A~D) 1) A(SNS) - 우한 및 코로나19 관련 키워드로 추출된 데이터들 중 상위 단어들로 구성한 JSON 및 워드클라우드 2) B(진보성향 커뮤니티) / C(보수성향 커뮤니티) / D(여성향 진보 커뮤니티) - 해당 기간 게시 된 전체 데이터들 중 상위 단어들로 구성된 JSON 및 워드클라우드□데이터 타입 1. A : SNS (일별 4개) - 일별 생성한 JSON 및 워드클라우드 (일별 2건, JSON 1개, PNG 1개) - 일별 데이터 수집시 사용한 키워드 제거한 JSON 및 워드클라우드 (일별 2건, JSON 1개, PNG 1개)2. B, C, D : 커뮤니티 (일별 708개 / 각 커뮤니티당 일별 236개) - (1)게시글, (2)댓글, (3)게시글+댓글 타입으로 제공 - (1),(2)는 "시간대별 / 누적"으로 생성한 JSON 및 워드클라우드 제공 - (3)은 누적으로 생성한 JSON 및 워드클라우드만 제공 - 제공되는 데이터 목록 (일별 236개, JSON 118개, PNG 118개) ① 게시글 기준 시간대별로 생성한 JSON 및 워드클라우드 ② 댓글 기준 시간대별로 생성한 JSON 및 워드클라우드 ③ 게시글 기준 누적으로 생성한 JSON 및 워드클라우드 ④ 댓글 기준 누적으로 생성한 JSON 및 워드클라우드 ⑤ 게시글+댓글 통합 누적으로 생성한 JSON 및 워드클라우드□데이터 파일 형식- JSON, PNG- JSON은 {단어:비율} 형태로 제공됩니다. ex) [{"keyword": "코로나", "count": 34.67 }, {"keyword": "신천지", "count": 4.21}, {"keyword": "확진","count": 3.99}, {"keyword": "마스크","count": 3.82}]□데이터 건수/사이즈 - 일별 712건 (JSON 356건, PNG 356건) / 약 80MB - 전체 파일수 36,276 (JSON 18,138건, PNG 18,138건) / 약 3.8GB - 단, 시간별 워드클라우드의 경우, 게시글이 적은때는 json과 png 파일이 생성되지 않음 - 상단의 [데이터 사이즈[Mbyte]/건수] 는 51일치에 대한 전체 사이즈와 파일건수를 의미함

리소스

항목
CKAN dataset id 6fd8e064-17f2-454b-b2fd-0a593ddbc38d
상태 active
url https://www.findatamall.or.kr/market/dataProdDetail?gdsSn=325&gdsSeCd=GENERAL&gdsVer=1
버전 2023-04-14
라이선스 cc-zero
pricing 유료
가격 협의
등록 일자 2,020-06-12
최종 업데이트 2,023-04-14
최초 수집 일시 2024-03-03T07:47:54…
최근 수집 일시 2024-03-03T07:47:54…

한줄평을 쓰려면 로그인하세요.

전체 데이터셋 보기