데이터의 종류

양적 변수 (수치형 변수)

수치 자체에 의미가 있는 데이터

대소비교, 평균을 낼 수 있음

 

이산형 변수(정수)와 연속형 변수(실수)로 구분할 수 있음

질적 변수 (범주형 변수)

선택지가 정해져 있는 데이터 (ex. 다니는 회사)

대소피교, 평균을 낼 수 없음

데이터를 다루는 방법이 상이함

 

그래프나 히스토그램으로 데이터 분표를 표현할 수 있음(시각화)

 

기술 통계량

대푯값

평균(mean)

중앙값(median) : 중간의 값. 최대, 최소값이 데이터 폭의 영향을 미치는 경우 사용

최빈값(mode) : 제일 많이 나타난 값

 

이상치(outliner) : 범위 내의 일반적인 데이터가 아닌 값. 경우에 따라 제거(ex. 평균 키)하거나 활용(ex. 이상기후 온도)함

 

값이 양쪽으로 치우치거나, 분포가 퍼져있는 경우 다른 개념도 도입하여 설명해야 함

산포도

데이터가 얼마나 퍼져있는 지를 나타내는 수치

 

분산(variance) : 평균에서 데이터가 얼마나 떨어져 있는지를 나타냄 (오차의 제곱 합)

표준편차(standard variance) : 표본분산에 제곱을 취한 값

+ Recent posts