본문으로 건너뛰기

데이터 마트

데이터 마트의 이해

데이터 마트 ⭐️

  • 데이터 분석을 하기에 앞서 분석 목적에 맞춰 데이터를 수집, 변형하는 과정이 필요
  • 데이터 마트란 데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스다.
  • 분석 목적별, 주제별, 부서별로 데이터를 수집하고 변형하여 한 곳에 모으는 작업을 데이터 마트 개발이라고 부른다.
  • 효율적인 데이터 마트 개발을 위해 R에서 제공하는 reshape, sqldf, plyr 등의 패키지를 활용

데이터 전처리

  • 빅데이터 분석 단계에 들어가기 전, 데이터를 전처리하는 과정이 꼭 필요
  • 전처리는 데이터를 정제하는 과정과 분석 변수를 처리하는 과정이 포함
  • 전처리는 정제와 변수 처리를 포함한 광의의 개념
  • 데이터 정제 과정 - 결측값과 이상값을 처리하는 내용
  • 분석 변수 처리 과정 - 변수 선택, 차원 축소, 파생변수 생성, 변수 변환, 클래스 불균형(불균형 데이터 처리) 등으로 이루어진다.

데이터 마트 개발을 위한 R 패키지 활용

reshape 패키지

melt 함수

  • 데이터를 특정 변수를 기준으로 녹여서 나머지 변수에 대한 세분화된 데이터를 만들 수 있다.

cast 함수

  • melt에 의해 녹은 데이터를 요약을 위해 새롭게 가공 할 수 있게 도와준다.

sqldf 패키지

  • 표준 SQL 문장을 활용하여 R에 데이터프레임을 다루는 것을 가능하게 해주는 패키지로서 SAS에서 PROC SQL과 같은 역활을 한다.

plyr 패키지

  • apply 함수를 기반으로 데이터를 분리하고 다시 결합하는 가장 필수적인 데이터 처리 기능을 제공
  • 입력되는 데이터 구조와 출력되는 데이터 구조에 따라 여러 가지 함수를 지원
  • 이중 ddply 함수는 시험 출제 빈도와 실사용 빈도가 높으므로 숙지

data.table 패키지 ⭐️

  • 데이터 테이블은 데이터프레임과 유사하지만 특정 칼럼별로 주솟값을 갖는 인덱스를 생성하여 연산 및 검색을 빠르게 수행할 수 있는 데이터 구조
  • 기존 데이터프레임보다 4~100배 빠르게 데이터를 탐색, 연산, 정렬, 병합