TC_SN_FBIND_TPBUZ_TXTMNG_20211110150711_sample.csv
샘플 데이터
테이블 미리보기 준비 중...
컬럼 정보 준비 중...
항목 | 값 |
---|---|
파일명 | TC_SN_FBIND_TPBUZ_TXTMNG_20211110150711_sample.csv |
파일 포맷 | CSV |
설명 | 샘플 데이터 |
데이터셋 설명 | 식음료업 관련 검색어로 수집된 데이터에서 추출된 키워드의 텍스트마이닝 지표 단어빈도(TF) : 한 문서 내에서 빈번하게 등장하는지를 나타내는 값으로, 빈도 값이 높을 수록 문서 내에서 중요한 단어로 판단할 수 있음. 단어중요도(TF-IDF) : 단어빈도(TF)와 문서빈도의 역수(IDF)를 곱한 값으로, 특정 단어가 문서내에서 얼마나 중요한지(희소가치)를 나타냄. 단어중요도값이 높은 단어는 문서 내에서 핵심적인 메시지를 담고 있을 확률이 높음. 연결정도중심성(Degree Centrality) : 특정 단어가 다른 단어와 직접적으로 얼마나 연결(동시출현)되어 있는 지를 나타내는 것으로, 단어연결중심성값이 높을 수록 문서내 다른 단어들과 연결이 많은 것을 뜻함. 매개중심성(Betweenness Centrality) : 특정 단어가 다른 단어와 관계를 구축하는데 있어 중개 역할을 얼마나 수행하는 지를 측정한 것으로, 단어매개중심성값이 높을 수록 문서내 속한 단어와 단어 사이를 연결(매개)할 확률이 높은 것을 뜻함. - 데이터 구간 : 2010년 1월 ~ 2021년 10월
|
url | 파일 다운로드 (안 되면 원본 페이지에서 다운 받으세요) |
원본 페이지 | https://bigdata-region.kr/#/dataset/3e93afea-9ab9-488a-9772-5fcc5ed41b2e |
버전 | 2022-04-06 |
파일 크기 | 1 KB |
행 수 | 30 보통 |
컬럼 수 | 7 |
텍스트 인코딩 | cp949 |
컬럼 구분자 | , 콤마 (COMMA) |
import pandas as pd
df = pd.read_csv('TC_SN_FBIND_TPBUZ_TXTMNG_20211110150711_sample.csv', on_bad_lines='skip', delimiter=',', encoding='cp949', encoding_errors='ignore')
컬럼 | 타입 | 샘플 |
---|---|---|
분석인덱스 | int64 | None |
수집년월 | string | None |
키워드명 | string | None |
단어빈도 | int64 | None |
단어중요도 | float64 | None |
연결정도중심성 | float64 | None |
매개중심성 | float64 | None |
항목 | 값 |
---|---|
column_info_url | https://ggdata.kr:6443/schemafiles/IMC/3e93afea-9ab9-488a-9772-5fcc5ed41b2e/TC_SN_FBIND_TPBUZ_TXTMNG_20211110150711_schema.csv |
생성일시 | 2023-09-28T17:45:07.430081 |
아이디 | d1993175-6508-4ca9-8429-cb80edffa173 |
key | sample_0a3f1d9f-727f-4ee0-bb57-ba7c880558e2 |
메타데이터 수정일시 | 2023-09-28T17:45:07.396691 |
MIME 타입 | text/csv |
데이터셋 아이디 | bdc259f2-ef78-486f-a687-564de9ac0ff4 |
상태 | active |
url | https://ggdata.kr:6443/samplefiles/IMC/3e93afea-9ab9-488a-9772-5fcc5ed41b2e/TC_SN_FBIND_TPBUZ_TXTMNG_20211110150711_sample.csv |