확률분포 (Probability Distribution)
확류 변수가 특정한 값을 가질 확률을 나타내는 함수
이상적인 모델을 통해 가정한 뒤 계산
기댓값 (Expected Value, E(X) = mean)
변수가 발생할 확률을 평균적으로 나타낸 수치
분산 (Variance, V(X))
관측값에서 평균을 빼고 제곱한 후, 모두 더하고 전체 개수로 나눈 수치
V(X) = 0, 모든 값이 동일
V(X) = 크면, 데이터 간 격차가 큼
확률분포의 파라미터
분포의 특정한 성질을 표현
표본의 크기가 커지면 특성이 동일해 짐 = 구조가 동일함
정규분포 (Normal Distribution)
모든 현상은 정규분포로 수렴
모양은 비슷하나 특성은 다름
평균 = μ (mean)
표준편차 = σ (standard deviation)
표준정규분포
자세한 분석을 바탕으로 표준정규분포로 변형
이미 분석된 내용이기에 해석하기 쉬움
높이 : σ
위치 : μ
정규분포의 가운데는 μ 이고, μ ± σ 로 범위로 나눔 (1 시그마, 2 시그마 ...)
확률밀도 함수
그래프의 면적 = 확률
어느 정규분포에서도 1, 2, 3 시그마 면적이 동일 함
표준정규분포는 평균 = 0, 표준편차 = 1 임
'강의 정리 > 데이터 분석 입문자를 위한 통계와 머신러닝 기초' 카테고리의 다른 글
02. 데이터의 이해와 기술통계량 (0) | 2024.06.10 |
---|---|
01. 데이터 분석을 위한 통계 (0) | 2024.06.10 |