※ 본 데이터는 매 월 단위로 작성 및 배포됩니다.
■ 데이터 개요
※ 음식 블로그 데이터
POS 데이터 중 큰 비중을 차지하고 있는 요식업 POS 가맹점에 대해 이용객의 소비 패턴을 파악하기 위해 맛집 블로그 내용에 대한 수집을 시행하였습니다.
※ 메뉴 트렌드 데이터
음식 블로그 데이터 내에서 표준 품목(메뉴)에 대한 언급 횟수를 수치화한 데이터입니다. 한 게시글 내에서 언급되는 횟수를 모두 고려할 경우 짧은 글에 비해 긴 글에 대한 편향이 존재할 수 있기 때문에 언급 횟수는 한 게시글 당 한 번으로 제한하였습니다.
■ 데이터 형태
※ 음식 블로그 데이터
블로그에 대한 주소와 게시일, 제목, 본문 내용 등이 제공됩니다. 개인정보 유출에 대한 우려가 존재할 수 있기 때문에 숫자 및 영문 텍스트 데이터는 모두 제거하였습니다.
※ 메뉴 트렌드 데이터
메뉴 트렌드를 보고자 하는 기준년월과 메뉴 코드, 메뉴명, 총 게시글 수, 게시글 당 평균 언급 수 등이 제공됩니다.
■ 데이터 산출 과정
1. 블로그 데이터 수집을 위한 크롤러 작성
2. 맛집 블로그 내용 수집
3. 텍스트 데이터 전처리 및 개인정보 제거
4. 블로그 데이터에 대한 게시글 언급 수 계산
■ 데이터 컬럼 설명
BASE_YM(기준연월) : POS 가맹점이 영업을 실시한 년월
MENU_CODE(메뉴코드) : 메뉴명에 대한 분류코드
MENU_NM(메뉴명) : POS 기기에서 판매된 상품을 표준화된 메뉴로 분류
NTT_CNT(게시물수) : 기준년월에 수집한 맛집 관련 블로그 게시글 개수
NTT_PER_AVRG_MENTN_CNT(게시물당평균언급수) : 한 게시글에 메뉴가 언급된 평균 수
(NTT_PER_AVRG_MENTN_CNT 항목은 메뉴에 대한 평균 언급 수인데, 한 게시글 당 한 개의 메뉴 갯수를 체크하며 블로그 게시글 하나에 여러 개의 메뉴가 언급될 수 있습니다.
예를 들어 "맛있는 라멘 집에 가서 라멘 먹은 후 스시로 입가심했다" 라는 게시글이 존재한다고 가정했을 때 해당 게시글은 라멘을 1회, 스시를 1회 언급한 것으로 계산합니다.)