1. Business Understanding - 가설 수립
- 문제를 정의하고 요인을 파악하기 위해서 가설을 수립한다.
- 과학 연구에서는
- 기존 연구 결과로 이어져 내려오는 정설을 [귀무가설]이라고 부르고
- 기존의 입장을 넘어서기 위한 새로운 연구 가설을 [대립가설]이라고 부른다.
- 여기서 우리가 수립하는 가설을 [대립가설]이라고 부르기도 한다
- 가설 수립 절차
- 1. 해결해야 할 문제가 무엇인가? (목표, 관심사, y)
- 2. Y를 설명하기 위한 요인을 찾아라. (x)
- 3. 가설의 구조를 정의하라. (x->y)
2. Data Understanding
- 데이터 원본 식별 및 취득
- (초기) 가설에서 도출된 데이터의 원본을 확인
- 데이터 탐색
- 데이터를 탐색하는 두 가지 방법
- 통계량: 분할표(Contingency Table), Min, Max, Sum, Mean, ...
- 시각화: Histogram, Box plot, Density plot, Bar plot, Pie chart, Scatter plot
- EDA (Exploratory Data Analysis, 탐색적 자료 분석)
- 개별 데이터의 분포, 가설이 맞는지 파악
- NA, 이상치 파악
- CDA (Confirmatory Data Analysis, 확증적 자료 분석)
- 탐색으로 파악하기 애매한 정보는 통계적 분석 도구(가설 검정) 사용
- 정리된 2차원 구조의 데이터셋을 분석하는 방법
- 1. Exploratory Data Analysis: 탐색적 데이터 분석
- 2. Confirmatory Data Analysis: 확증적 데이터 분석
- EDA 및 CDA 진행 순서
- 1. 단변량 분석: 개별 변수의 분포
- 2. 이변량 분석1: feature와 target 간의 관계 (가설을 확인하는 단계)
- 3. 이변량 분석2: feature들 간의 관계
- 데이터 분석을 위해 수행해야 할 사항
- 1. (언제, 어떤) 그래프를 그리고 (어떻게) 해석
- 2. (언제, 어떤) 통계량을 구하고 (어떻게) 해석
- 3. (언제, 어떤) 가설검정 방법을 사용하고 (어떻게) 해석
참고 블로그 : https://aliencoder.tistory.com/1
3. Data Preparation (데이터 준비)
- 데이터 시각화, 분석 및 머신 러닝 프로그램의 일부로 분석할 수 있도록 데이터를 수집, 결합, 구조화 및 구성하는 프로세스
- 원시 데이터 (이종 데이터 소스에서 올 수 있음)를 비즈니스 목적으로 쉽고 정확하게 분석 할 수있는 형식 으로 조작 (또는 사전 처리)하는 행위
- 데이터 분석 프로젝트의 첫 번째 단계이며 데이터로드 또는 데이터 수집, 데이터 융합, 데이터 정리, 데이터 보강 및 데이터 전달과 같은 많은 개별 작업을 포함
- 개요
- 1. 모든 셀에 값이 있어야 한다.
- 2. 모든 값은 숫자이어야 한다.
- 3. (옵션) 값의 범위를 일치시켜야 한다.
- 수행되는 내용
- 결측치(missing value) 조치
- 가변수화 (One-hot-encoding)
- 스케일링 (Scaling)
- 데이터 분할 (Splitting Data)
4. Modeling
- 모델링 (학습, Learning, Training)
- 데이터로부터 패턴을 찾는 과정.
- 오차를 최소화하는 패턴
- 결과물: 모델(모델은 수학식으로 표현됨)
- 모델링을 위해 필요한 두가지