지도학습
- 분류 (Classification) 문제와 회귀 (Regression) 문제를 다뤄본다.
분류와 회귀
- 모델링을 하기 전에 원하는 결과가 분류인지 회귀인지 명확히 이해해야 함
- 회귀는 연속적인 숫자를 예측
- 분류는 범주값을 에측
- 분류와 회귀는 서로 다른 함수를 사용해 모델링을 하게 됨
- 문제의 유형을 정확히 파악 -> 알고리즘과 평가 방법을 선택 -> 관련된 함수를 사용해 모델링
3. 기초 용어 알아두기
모델, 모델링
- 모델(Model)
- 데이터로부터 패턴을 찾아, 수학식으로 정리해 놓은 것
- 모델링(Modeling): 오차가 적은 모델을 만드는 과정
- 모델의 목적
- 샘플을 가지고 전체를 추정
- 샘플: 표본, 부분집합, 일부, 과거의 데이터
- 전체: 모집단, 전체집합, 현재와 미래의 데이터
- 추정: 예측, 추론
행, 열
- 열 : 특성(Feature), 속성(Attribute), 변수(Variable), 필드(Field)
- 행 : 개체(Instance), 관측치(Observed Value), 기록(Record), 사례(Example), 경우(Case)
독립변수, 종속변수
오차
- 통계학에서 사용되는 가장 단순한 모델 중 하나가 평균
- 관측값과 모델 예측값의 차이 : 이탈도(Deviance) -> 오차
데이터 분리
- 데이터셋을 학습용, 검증용, 평가용 데이터로 분리함
과대적합과 과소적합
- Overfitting, 과대적합
- 학습 데이터에 대해서는 성능이 매우 좋은데, 평가 데이터에서 대해서는 성능이 매우 좋지 않은 경우
- 학습 데이터에 대해서만 잘 맞는 모델 -> 실전에서 예측 성능이 좋지 않음
- Underfitting, 과소적합
- 학습 데이터보다 평가 데이터에 대한 성능이 매우 좋거나, 모든 데이터에 대한 성능이 매우 안 좋은 경우
- 모델이 너무 단순하여 학습데이터에 대해 적절히 훈련되지 않은 경우