새소식

Machine Learning

4.2 성능평가 - 분류 모델 성능 평가

  • -

평가 방법

  • 분류 모델 평가
    • 분류 모델은 0인지 1인지를 예측하는 것
    • 실제 값도 0과 1, 예측값도 0과 1
    • 하지만, 0을 1로 예측하거나 1을 0으로 예측할 수 있음
    • 예측 값이 실제 값과 많이 같을 수록 좋은 모델이라 할 수 있음
    • -> 정확히 예측한 비율로 모델 성능을 평가
    • -> 정확도를 높이는 것이 목표!!
  • 회귀 모델 평가
    • 회귀 모델이 정확한 값을 예측하기는 사실상 어려움
    • 예측 값과 실제 값에 차이(=오차)가 존재할 것이라 예상함
    • 예측 값이 실제 값에 가까울 수록 좋은 모델이라 할 수 있음
    • -> 예측한 값과 실제 값의 차이(=오차)로 모델 성능을 평가
    • ->오차를 줄이는 것이 목표!!
  • Accuracy (정확도): 1과 0을 정확히 예측한 비율
  • Precision (정밀도): 1이라 예측한 것 중 정말 1인 비율 또는 0이라 예측한 것 중 정말 0인 비율
  • Recall (재현율): 실제 1인 것을 1이라고 예측한 비율 또는 실제 0인 것을 0이라고 예측한 비율

Confusion Matrix (우분류표, 혼돈행렬)

  • TN(True Negative, 진음성): 음성으로잘예측한것 음성을음성이라고예측한것
  • FP(False Positive, 위양성): 양성으로잘못예측한것 음성을양성이라고예측한것
  • FN(False Negative, 위음성): 음성으로잘못예측한것 양성을음성이라고예측한것
  • TP(True Positive, 진양성): 양성으로잘예측한것 양성을양성이라고예측한것

예측관점에 따라 분류 방법의 초점을 조절할 필요가 있음

- 정말도, 암이라 예측한 환자 중에서 실제 암인 환자의 비율

- 정밀도가 낮은 경우 : 암이 아닌데 암이라 했으니 불필요한 치료 발생

- 재현율, 실제 암인 환자 중에서 암이라고 예측한 환자의 비율

- 재현율이 낮은 경우 : 암인 사람에게 암이 아니라 했으니 심각한 결과 초래

F1 Score

  • 정밀도와재현율의 조화 평균
  • 분자가 같지만 분모가 다를 경우, 즉 관점이 다른 경우 조화 평균이 큰 의미를 가짐
  • 정밀도와 재현율이 적절하게 요구 될 때 사용

 

 

코드, 모델 평가하기 

 

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.