평가 방법
- 분류 모델 평가
- 분류 모델은 0인지 1인지를 예측하는 것
- 실제 값도 0과 1, 예측값도 0과 1
- 하지만, 0을 1로 예측하거나 1을 0으로 예측할 수 있음
- 예측 값이 실제 값과 많이 같을 수록 좋은 모델이라 할 수 있음
- -> 정확히 예측한 비율로 모델 성능을 평가
- -> 정확도를 높이는 것이 목표!!
- 회귀 모델 평가
- 회귀 모델이 정확한 값을 예측하기는 사실상 어려움
- 예측 값과 실제 값에 차이(=오차)가 존재할 것이라 예상함
- 예측 값이 실제 값에 가까울 수록 좋은 모델이라 할 수 있음
- -> 예측한 값과 실제 값의 차이(=오차)로 모델 성능을 평가
- ->오차를 줄이는 것이 목표!!
회귀모델의 성능은 실제값과 예측값의 차이, 즉 오차의 크기로 평가함
MSE (Mean Squared Error): 오차 제곱(SSE, Sum Squared Error)의 합을 구한 후 평균을 구함
$$\large MSE=\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^2$$
RMSE (Root Mean Squared Error): MSE의 root 값
$$\large RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^2}$$
MAE (Mean Absolute Error) : 오차 절대값의 합을 구한 후 평균을 구함
$$\large MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}-\hat{y}_{i}|$$
MAPE (Mean Absolute Percentage Error) : 오차 비율
$$\large MAPE=\frac{1}{n}\sum_{i=1}^{n}\left |\frac{y_{i}-\hat{y}{i}}{y{i}}\right |$$
오차를 바라보는 다양한 관점
- SST: Sum Squared Total, 전체 오차 최소한 평균 보다는 성능이 좋아야 하니, 우리에게 허용된(?) 오차
- SSR: Sum Squared Regression, 전체 오차 중에서 회귀식이 잡아낸 오차
- SSE: Sum Squared Error, 전체 오차 중에서 회귀식이 여전히 잡아내지 못한 오차
결정계수 $𝑅^2$ (R Squared)
- Coefficient of Determination
- MSE로 여전히 설명이 부족한 부분이 있음 성능이 확실히 와 닿지 않음
- 모델성능을 잘 해석하기 위해서 만든 MSEMSE의 표준화된 버전이 결정 계수임
- 전체 오차 중에서 회귀식이 잡아낸 오차 비율 일반적으로 0 ~ 1 사이
- 오차의 비 또는 설명력이라고도 부름
- $𝑅^2=1$이면 $\text{𝑀𝑆𝐸}=0$이고 모델이 데이터를 완벽하게 학습한 것