새소식

KT AIVLE SCHOOL

CRISP-DM 표준 분석 방법론

  • -

 

 

 

 

1. Business Understanding - 가설 수립 

- 문제를 정의하고 요인을 파악하기 위해서 가설을 수립한다.

- 과학 연구에서는 

  • 기존 연구 결과로 이어져 내려오는 정설을 [귀무가설]이라고 부르고 
  • 기존의 입장을 넘어서기 위한 새로운 연구 가설을 [대립가설]이라고 부른다.
  • 여기서 우리가 수립하는 가설을 [대립가설]이라고 부르기도 한다

- 가설 수립 절차 

  • 1. 해결해야 할 문제가 무엇인가? (목표, 관심사, y) 
  • 2. Y를 설명하기 위한 요인을 찾아라. (x) 
  • 3. 가설의 구조를 정의하라. (x->y) 

 

2. Data Understanding 

- 데이터 원본 식별 및 취득 

  • (초기) 가설에서 도출된 데이터의 원본을 확인 

- 데이터 탐색 

  • 데이터를 탐색하는 두 가지 방법 
    • 통계량: 분할표(Contingency Table), Min, Max, Sum, Mean, ...
    • 시각화: Histogram, Box plot, Density plot, Bar plot, Pie chart, Scatter plot
  • EDA (Exploratory Data Analysis, 탐색적 자료 분석)
    • 개별 데이터의 분포, 가설이 맞는지 파악
    • NA, 이상치 파악
  • CDA (Confirmatory Data Analysis, 확증적 자료 분석)
    • 탐색으로 파악하기 애매한 정보는 통계적 분석 도구(가설 검정) 사용 
  • 정리된 2차원 구조의 데이터셋을 분석하는 방법 
    • 1. Exploratory Data Analysis: 탐색적 데이터 분석 
    • 2. Confirmatory Data Analysis: 확증적 데이터 분석 
    • EDA 및 CDA 진행 순서
      • 1. 단변량 분석: 개별 변수의 분포 
      • 2. 이변량 분석1: feature와 target 간의 관계 (가설을 확인하는 단계) 
      • 3. 이변량 분석2: feature들 간의 관계 

  • 데이터 분석을 위해 수행해야 할 사항 
    • 1. (언제, 어떤) 그래프를 그리고 (어떻게) 해석
    • 2. (언제, 어떤) 통계량을 구하고 (어떻게) 해석 
    • 3. (언제, 어떤) 가설검정 방법을 사용하고 (어떻게) 해석 

참고 블로그 : https://aliencoder.tistory.com/1

 

3. Data Preparation (데이터 준비) 

- 데이터 시각화, 분석 및 머신 러닝 프로그램의 일부로 분석할 수 있도록 데이터를 수집, 결합, 구조화 및 구성하는 프로세스

- 원시 데이터 (이종 데이터 소스에서 올 수 있음)를 비즈니스 목적으로 쉽고 정확하게 분석 할 수있는 형식 으로 조작 (또는 사전 처리)하는 행위

- 데이터 분석 프로젝트의 첫 번째 단계이며 데이터로드 또는 데이터 수집데이터 융합데이터 정리데이터 보강 및 데이터 전달과 같은 많은 개별 작업을 포함

 

- 개요

  • 1. 모든 셀에 값이 있어야 한다.
  • 2. 모든 값은 숫자이어야 한다.
  • 3. (옵션) 값의 범위를 일치시켜야 한다. 

- 수행되는 내용

  • 결측치(missing value) 조치
  • 가변수화 (One-hot-encoding)
  • 스케일링 (Scaling)
  • 데이터 분할 (Splitting Data)

 

4. Modeling 

- 모델링 (학습, Learning, Training) 

  • 데이터로부터 패턴을 찾는 과정.
  • 오차를 최소화하는 패턴
  • 결과물: 모델(모델은 수학식으로 표현됨) 

- 모델링을 위해 필요한 두가지 

  • 1. 학습 데이터
  • 2. 알고리즘

 

 

'KT AIVLE SCHOOL' 카테고리의 다른 글

컴퓨터비전 미니프로젝트 4차 쿨루프  (0) 2024.04.13
웹기반 라벨링 툴  (0) 2024.04.11
Deep Learning 평가지표 종류  (0) 2024.03.21
평균과 분산, 표준편차  (0) 2024.02.28
데이터 분석 및 의미 찾기  (1) 2024.02.28
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.