확률분포 (Probability Distribution)

확류 변수가 특정한 값을 가질 확률을 나타내는 함수

이상적인 모델을 통해 가정한 뒤 계산

 

기댓값 (Expected Value, E(X) = mean)

변수가 발생할 확률을 평균적으로 나타낸 수치

 

분산 (Variance, V(X))

관측값에서 평균을 빼고 제곱한 후, 모두 더하고 전체 개수로 나눈 수치

V(X) = 0, 모든 값이 동일

V(X) = 크면, 데이터 간 격차가 큼

확률분포의 파라미터

분포의 특정한 성질을 표현

 

표본의 크기가 커지면 특성이 동일해 짐 = 구조가 동일함

 

정규분포 (Normal Distribution)

모든 현상은 정규분포로 수렴

모양은 비슷하나 특성은 다름

 

평균 = μ (mean)

표준편차 = σ (standard deviation)

표준정규분포

자세한 분석을 바탕으로 표준정규분포로 변형

이미 분석된 내용이기에 해석하기 쉬움

 

높이 : σ

위치 : μ

 

정규분포의 가운데는 μ 이고,  μ ± σ 로 범위로 나눔 (1 시그마, 2 시그마 ...)

확률밀도 함수

그래프의 면적 = 확률

어느 정규분포에서도 1,  2, 3 시그마 면적이 동일 함

 

표준정규분포는 평균 = 0, 표준편차 = 1 임

데이터의 종류

양적 변수 (수치형 변수)

수치 자체에 의미가 있는 데이터

대소비교, 평균을 낼 수 있음

 

이산형 변수(정수)와 연속형 변수(실수)로 구분할 수 있음

질적 변수 (범주형 변수)

선택지가 정해져 있는 데이터 (ex. 다니는 회사)

대소피교, 평균을 낼 수 없음

데이터를 다루는 방법이 상이함

 

그래프나 히스토그램으로 데이터 분표를 표현할 수 있음(시각화)

 

기술 통계량

대푯값

평균(mean)

중앙값(median) : 중간의 값. 최대, 최소값이 데이터 폭의 영향을 미치는 경우 사용

최빈값(mode) : 제일 많이 나타난 값

 

이상치(outliner) : 범위 내의 일반적인 데이터가 아닌 값. 경우에 따라 제거(ex. 평균 키)하거나 활용(ex. 이상기후 온도)함

 

값이 양쪽으로 치우치거나, 분포가 퍼져있는 경우 다른 개념도 도입하여 설명해야 함

산포도

데이터가 얼마나 퍼져있는 지를 나타내는 수치

 

분산(variance) : 평균에서 데이터가 얼마나 떨어져 있는지를 나타냄 (오차의 제곱 합)

표준편차(standard variance) : 표본분산에 제곱을 취한 값

데이터 분석의 목적

데이터를 분석하여 요약하고, 요약된 데이터로 미래를 예측하기

기술통계

확보된 데이터를 가지고, 해당 데이터의 성질을 이해하기

추론통계

기존의 데이터로 패턴을 파악하여 미래를 추론, 예측하기

 

모집단

통계 관찰의 대상이 되는 집단 전체

전수조사

모집단의 전체 데이터를 조사하는 방법

시간과 비용이 많이 들고, 조사 중에 데이터가 변질 될 수 있음 (ex. 고등학생 평균 키)

표본조사

모집단의 일부 데이터만 조사하는 방법

 

+ Recent posts