ML&DL&AI/기초통계

분석을 위한 데이터란?

Hoon0211 2023. 8. 3. 10:47
728x90

1. 분석을 위한 데이터의 모습

  • 데이터는 변수(열)와 관측치(행)으로 구성
변수(Variable) ↓                  
관측치 → 이름 성별 나이
A 25 174
B 25 165
C 30 185
D 23 163

 

 

 

2. 데이터의 표현

  • 데이터를 표현하기 위한 약속이 존재
  • 복잡하게 둘러 말해하는 경우는 수식을 이용해 간단하게 설명
    • 변수의 개수 p, 관측치의 개수는 n
    • 데이터의 크기 표현 n x p (실제로 곱하는것은 아님)
    • 변수 그자체는 x라고 표현 한다.

 

 

- 기술통계량과 변수 요약

변수의 특징을 설명하기 위해 다양한 연산을 사용하는데, 이 계산된 숫자들을 통계량 이라고 부르고,

특히 데이터의 특징을 잘 설명하는 통계량을 기술통계량(Descriptive Statistics)이라고 부른다.

  • 대표적인 기술 통계량 : 최솟값, 최대값, 중앙값, 분산 등
  • 연속성 : 순서를 정하거나 값들을 더해 통계량을 계산
  • 범주형 : 변수는 값이 같은 관측치들을 묶어 개수를 셈

 

 

3. 데이터의 대표값

  • 대표값
    • 중심경향값이라고 불리며, 데이터들을 가장 잘 표현해주는 값
    • 평균값, 중앙값 최빈값이 있으며, 연구자의 선택에 따라 대표값이 정해진다.
    • 일반적으로 대표값은 평균값, 중앙값을 많이 사용
       
  • 평균값
    • 변수의 합게가 고정되어 있을때 모든 관측치가 똑같이 나눠 가질수 있는 값
    • ex) 80 90 90 90 100의 평균 점수는 90
      • 단.  1 90 90 90 100의 평균 점수는 74.2
      • 이상치가 존재할 경우 평균을 대표값으로 사용하면 오류가 날 수 있다.
         
  • 중앙값
    • 이상치의 영향을 덜 받을 수 있다.
    • 주어진 값을 크기의 순서대로 정렬 후 가장 중앙에 위치하는 값을 의미
    • ex)  1 90 90 90 100 의 중앙값은 90
      • 중앙값 구하는 방법
      • 1. 작은 수에서 큰 수 순으로 나열
      • 2. 홀수 개의 수가 있으면 중앙값은 한 가운데 있는 수
      • 3. 짝수 개의 수가 있으면 가운데에 있는 두수를 더한 다음 2로 나눈다.
         
  • 최빈값
    • 주어진 자료들 중 가장 많은 빈도로 나타나는 값
    • ex) 1 90 90 90 100 의 최빈값은 90
728x90