데이터 분석 및 의미 찾기

KT AIVLE SCHOOL

4356 2024. 2. 28. 13:31

목표

1. 분석/모델링을 위한 데이터 구조를 이해한다.

2. 정보의 종료 (숫자, 범주)에 따라 데이터의 분포를 확인하고 비즈니스를 파악할 수 있다.

3. 두 정보를 분석할 때, 적절한 도구를 사용하여 관계를 파악해 낼 수 있다.

1. 가설 검정

모집단(Population): 우리가 알고 싶은 대상 전체 영역 (전체 데이터)

표본(Sample): 그 대상의 일부 영역 (부분 데이터)

-> 우리는 일부분(표본)으로 전체(모집단)을 추정하고 싶다.

모집단에 대한 가설 수립

- 가설은 보통 x와 y의 관계를 표현

- x에 따라 y가 차이가 있다

- x와 y는 관계가 있다.

가설 검정: 표본을 통해 세운 가설이 실제 그러한지 검증 필요

가설 검정 절차:

대립가설을 세우고 P-value를 구했더니. 0.001이라면,

우의수준으로 정한 5%보다 작으므로, 세운 가설이 (모집단에서) 맞을 것이라고 판단할 수 있다.

공분산: covariance

상관계수: correlation efficient

선형관계, 이상치, 온도가 커질 수록 오존에 관한 분산이 커짐

상관관계를 나타내는 두가지 숫자: 공분산, 상관계수

상관계수는 'r'로 표현

-1~1 사이의 값

상관계수끼리 비교, -1 또는 1에 가까울 수록 강한 상관관계를 나타냄.