-
분석을 위한 데이터란?ML&DL&AI/기초통계 2023. 8. 3. 10:47728x90
1. 분석을 위한 데이터의 모습
- 데이터는 변수(열)와 관측치(행)으로 구성
변수(Variable) ↓ 관측치 → 이름 성별 나이 키 A 여 25 174 B 여 25 165 C 남 30 185 D 여 23 163 2. 데이터의 표현
- 데이터를 표현하기 위한 약속이 존재
- 복잡하게 둘러 말해하는 경우는 수식을 이용해 간단하게 설명
- 변수의 개수 p, 관측치의 개수는 n
- 데이터의 크기 표현 n x p (실제로 곱하는것은 아님)
- 변수 그자체는 x라고 표현 한다.
- 기술통계량과 변수 요약
변수의 특징을 설명하기 위해 다양한 연산을 사용하는데, 이 계산된 숫자들을 통계량 이라고 부르고,
특히 데이터의 특징을 잘 설명하는 통계량을 기술통계량(Descriptive Statistics)이라고 부른다.
- 대표적인 기술 통계량 : 최솟값, 최대값, 중앙값, 분산 등
- 연속성 : 순서를 정하거나 값들을 더해 통계량을 계산
- 범주형 : 변수는 값이 같은 관측치들을 묶어 개수를 셈
3. 데이터의 대표값
- 대표값
- 중심경향값이라고 불리며, 데이터들을 가장 잘 표현해주는 값
- 평균값, 중앙값 최빈값이 있으며, 연구자의 선택에 따라 대표값이 정해진다.
- 일반적으로 대표값은 평균값, 중앙값을 많이 사용
- 평균값
- 변수의 합게가 고정되어 있을때 모든 관측치가 똑같이 나눠 가질수 있는 값
- ex) 80 90 90 90 100의 평균 점수는 90
- 단. 1 90 90 90 100의 평균 점수는 74.2
- 이상치가 존재할 경우 평균을 대표값으로 사용하면 오류가 날 수 있다.
- 중앙값
- 이상치의 영향을 덜 받을 수 있다.
- 주어진 값을 크기의 순서대로 정렬 후 가장 중앙에 위치하는 값을 의미
- ex) 1 90 90 90 100 의 중앙값은 90
- 중앙값 구하는 방법
- 1. 작은 수에서 큰 수 순으로 나열
- 2. 홀수 개의 수가 있으면 중앙값은 한 가운데 있는 수
- 3. 짝수 개의 수가 있으면 가운데에 있는 두수를 더한 다음 2로 나눈다.
- 최빈값
- 주어진 자료들 중 가장 많은 빈도로 나타나는 값
- ex) 1 90 90 90 100 의 최빈값은 90
728x90'ML&DL&AI > 기초통계' 카테고리의 다른 글
통계의 변수란 (0) 2023.08.03 분산과 사분위수(Quartile) (0) 2023.08.03 기초 통계는 무엇일까? (0) 2023.08.03