본문 바로가기
TIL

본 캠프 45일차 TIL

by Data 학습자 2024. 8. 7.

데이터 마트의 이해

데이터 마트(Data Mart)는 특정 부서나 업무 목적에 맞춘 데이터 웨어하우스의 하위 집합이다. 이를 통해 더 구체적이고 전문화된 데이터를 제공하여 사용자들이 쉽게 접근하고 분석할 수 있도록 돕는다. 데이터 마트는 대규모 데이터 웨어하우스의 일부로 운영되며, 특정 부서나 기능별 요구를 충족시키기 위해 설계된다.

데이터 마트

1. 정의와 목적

  • 정의
    데이터 마트는 특정 비즈니스 부서나 사용자 그룹이 필요로 하는 데이터만을 포함하는 소규모 데이터 웨어하우스이다.
  • 목적
    특정 부서의 요구 사항을 충족시키기 위해 데이터 분석 및 보고를 용이하게 하여 의사 결정 과정을 지원한다.

2. 유형

  • 분석형 데이터 마트
    분석 및 보고를 위해 사용되는 데이터 마트로, 주로 경영진이나 분석가들이 사용한다.
  • 운영형 데이터 마트
    운영상의 요구를 충족시키기 위해 사용되는 데이터 마트로, 일상적인 비즈니스 운영에 필요한 데이터를 제공한다.

3. 장점

  • 성능 향상: 특정 부서나 기능에 맞춤화된 데이터를 제공함으로써 쿼리 성능이 향상된다.
  • 비용 절감: 전체 데이터 웨어하우스를 사용하지 않고 필요한 데이터만을 제공함으로써 비용을 절감할 수 있다.
  • 유연성: 부서나 기능별로 독립적인 데이터 마트를 구성할 수 있어 유연한 데이터 관리가 가능하다.

4. 구성 요소

  • 소스 데이터
    데이터 마트에 포함될 데이터를 제공하는 원천 데이터 소스
  • ETL 프로세스
    소스 데이터로부터 데이터를 추출(Extract), 변환(Transform), 적재(Load)하는 과정
  • 데이터 저장소
     변환된 데이터가 저장되는 장소
  • 접근 도구
    데이터 마트에 저장된 데이터를 조회하고 분석하기 위한 도구들

데이터 전처리

정의

  • 데이터 전처리는 원천 데이터에서 유용한 정보를 추출하기 위해 데이터를 정제하고 변환하는 과정이다. 데이터 분석의 정확성과 효율성을 높이기 위해 필수적인 단계이다.

과정

  • 데이터 수집
    다양한 소스로부터 데이터를 수집한다.
  • 데이터 정제
    중복 데이터 제거, 결측치 처리, 오류 수정 등 데이터를 정리한다.
  • 데이터 변환
    데이터의 형식을 변환하고 필요한 속성을 추출하여 분석에 적합한 형태로 만든다.
  • 데이터 통합
    여러 소스의 데이터를 통합하여 일관된 데이터 세트를 만든다.
  • 데이터 축소
    분석에 필요한 핵심 정보만 남기고 불필요한 데이터를 제거한다.

기법

  • 결측치 처리
    평균 대체, 최빈값 대체, 회귀 대체 등의 방법이 있다.
  • 이상치 처리
    이상치 제거, 변환, 대체 등의 방법이 있다 .
  • 데이터 정규화
    데이터 범위를 표준화하여 일관성 있는 분석이 가능하도록 한다.
  • 데이터 변환
    로그 변환, 제곱근 변환 등 데이터의 특성을 바꾸어 분석의 효율성을 높인다.

도구

  • ETL 도구
    데이터 추출, 변환, 적재를 자동화하는 도구 (예: Talend, Informatica).
  • 프로그래밍 언어
    Python, R과 같은 언어로 데이터 전처리 작업을 수행할 수 있다.
  • 분석 도구
    Excel, SAS, SPSS와 같은 도구로 데이터 전처리를 수행할 수 있다.

데이터 마트와 데이터 전처리는 데이터 분석 과정에서 필수적인 단계로, 효과적인 데이터 관리와 분석을 통해 비즈니스 인사이트를 도출하는 데 중요한 역할을 한다.

'TIL' 카테고리의 다른 글

본 캠프 47일차 TIL  (0) 2024.08.09
본 캠프 46일차 TIL  (0) 2024.08.09
본 캠프 44일차 TIL  (0) 2024.08.06
본 캠프 43일차 TIL  (0) 2024.08.05
본 캠프 42일차 TIL  (0) 2024.08.05