데이터의 종류
양적 변수 (수치형 변수)
수치 자체에 의미가 있는 데이터
대소비교, 평균을 낼 수 있음
이산형 변수(정수)와 연속형 변수(실수)로 구분할 수 있음
질적 변수 (범주형 변수)
선택지가 정해져 있는 데이터 (ex. 다니는 회사)
대소피교, 평균을 낼 수 없음
데이터를 다루는 방법이 상이함
그래프나 히스토그램으로 데이터 분표를 표현할 수 있음(시각화)
기술 통계량
대푯값
평균(mean)
중앙값(median) : 중간의 값. 최대, 최소값이 데이터 폭의 영향을 미치는 경우 사용
최빈값(mode) : 제일 많이 나타난 값
이상치(outliner) : 범위 내의 일반적인 데이터가 아닌 값. 경우에 따라 제거(ex. 평균 키)하거나 활용(ex. 이상기후 온도)함
값이 양쪽으로 치우치거나, 분포가 퍼져있는 경우 다른 개념도 도입하여 설명해야 함
산포도
데이터가 얼마나 퍼져있는 지를 나타내는 수치
분산(variance) : 평균에서 데이터가 얼마나 떨어져 있는지를 나타냄 (오차의 제곱 합)
표준편차(standard variance) : 표본분산에 제곱을 취한 값
'강의 정리 > 데이터 분석 입문자를 위한 통계와 머신러닝 기초' 카테고리의 다른 글
03. 확률분포의 이해 (0) | 2024.06.12 |
---|---|
01. 데이터 분석을 위한 통계 (0) | 2024.06.10 |