새소식

Machine Learning

2. 분류와 회귀, 기초 용어

  • -

지도학습

  • 분류 (Classification) 문제와 회귀 (Regression) 문제를 다뤄본다.

분류와 회귀

  • 모델링을 하기 전에 원하는 결과가 분류인지 회귀인지 명확히 이해해야 함
  • 회귀는 연속적인 숫자를 예측
  • 분류는 범주값을 에측

연속적인 숫자와 범주 값

  • 분류와 회귀는 서로 다른 함수를 사용해 모델링을 하게 됨
  • 문제의 유형을 정확히 파악 -> 알고리즘과 평가 방법을 선택 -> 관련된 함수를 사용해 모델링

3. 기초 용어 알아두기

모델, 모델링

  • 모델(Model)
    • 데이터로부터 패턴을 찾아, 수학식으로 정리해 놓은 것
    • 모델링(Modeling): 오차가 적은 모델을 만드는 과정
  • 모델의 목적
    • 샘플을 가지고 전체를 추정
      • 샘플: 표본, 부분집합, 일부, 과거의 데이터
      • 전체: 모집단, 전체집합, 현재와 미래의 데이터
      • 추정: 예측, 추론

행, 열

  • 열 : 특성(Feature), 속성(Attribute), 변수(Variable), 필드(Field)
  • 행 : 개체(Instance), 관측치(Observed Value), 기록(Record), 사례(Example), 경우(Case)

독립변수, 종속변수

  • 독립변수는 x
  • 종속변수는 y

오차

  • 통계학에서 사용되는 가장 단순한 모델 중 하나가 평균
  • 관측값과 모델 예측값의 차이 : 이탈도(Deviance) -> 오차

데이터 분리

  • 데이터셋을 학습용, 검증용, 평가용 데이터로 분리함

과대적합과 과소적합

  • Overfitting, 과대적합
    • 학습 데이터에 대해서는 성능이 매우 좋은데, 평가 데이터에서 대해서는 성능이 매우 좋지 않은 경우
    • 학습 데이터에 대해서만 잘 맞는 모델 -> 실전에서 예측 성능이 좋지 않음
  • Underfitting, 과소적합
    • 학습 데이터보다 평가 데이터에 대한 성능이 매우 좋거나, 모든 데이터에 대한 성능이 매우 안 좋은 경우
    • 모델이 너무 단순하여 학습데이터에 대해 적절히 훈련되지 않은 경우

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.