목표
1. 분석/모델링을 위한 데이터 구조를 이해한다.
2. 정보의 종료 (숫자, 범주)에 따라 데이터의 분포를 확인하고 비즈니스를 파악할 수 있다.
3. 두 정보를 분석할 때, 적절한 도구를 사용하여 관계를 파악해 낼 수 있다.
1. 가설 검정
모집단(Population): 우리가 알고 싶은 대상 전체 영역 (전체 데이터)
표본(Sample): 그 대상의 일부 영역 (부분 데이터)
-> 우리는 일부분(표본)으로 전체(모집단)을 추정하고 싶다.
모집단에 대한 가설 수립
- 가설은 보통 x와 y의 관계를 표현
- x에 따라 y가 차이가 있다
- x와 y는 관계가 있다.
가설 검정: 표본을 통해 세운 가설이 실제 그러한지 검증 필요
가설 검정 절차:
대립가설을 세우고 P-value를 구했더니. 0.001이라면,
우의수준으로 정한 5%보다 작으므로, 세운 가설이 (모집단에서) 맞을 것이라고 판단할 수 있다.
공분산: covariance
상관계수: correlation efficient
선형관계, 이상치, 온도가 커질 수록 오존에 관한 분산이 커짐
상관관계를 나타내는 두가지 숫자: 공분산, 상관계수
상관계수는 'r'로 표현
-1~1 사이의 값
상관계수끼리 비교, -1 또는 1에 가까울 수록 강한 상관관계를 나타냄.