ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 분산과 사분위수(Quartile)
    ML&DL&AI/기초통계 2023. 8. 3. 11:32
    728x90

    1. 분산

    • 관측치들이 평균에서 평균적으로 얼마나 떨어져있는지를 계산
    • 분산이 0에 가깝다면 평균 근처에 몰려있다는 것을 의미
    • 분산이 커진다면 평균에 멀리 떨어져있다는 것을 의미
    • 쉽게 말해 분포되어 있는 정도(흩어진 정도)를 의미

     

     

    • -, + 부호는 상관없어짐, 분산된 정도를 확인하면 되기때문
    • 제곱했을 때 값이 월등히 커지기 때문에 분산의 정도가 확연하게 보임
    • 제곱 말고 절댓값을 쓸 수 있지만, 계산할 때 미분가능한 분산 값을 더 선호
    • 현실적인 이유
      • 평균에서 100명이 100원씩 차이가 날 경우 2명이 5000원씩 차이가 날때
      • 절대값 100 x 100원 = 2 x 5,000원 = 10,000원
        분산값 100 x (100원)² = 1,000,000원² < 2x (5000원)² = 50,000,000원²

     

     

    - 표준편차

    • 분산에 제곱근을 씌워서 단위의 문제를 해결한 숫자

     

     

     

    2. 사분위수(Quartile)

    • 사분위수는 관측값 오름차순으로 정렬한 후 4개의 동일한 값으로 나눈 값,
      관측값의 중심위치와 분포를 쉽고 빠르게 파악가능

     

     

     

    3. 상자 그림 ( Boxplot)

    • 관측치를 같은 비율로 나누는 지점 계산하여 각 구간의 간격을 살핀다
    • ex) 1 6 10 12 12 15 21 22 33 37 56 의 상자그림의 수치는?
      • 2사분위수 15
        • 중앙값 15이기 때문에
           
      • 1사분위수 11
        • 1 ~ 15 의 중앙값 
        • (10 + 12) / 2 = 11
           
      • 3사분위수 27.5
        • 15 ~ 56의 중앙값
        • (22 + 23) / 2 = 27.5
           
      • 4분위수 범위 16.5
        • 3사분위수 - 1사분위수
        • 27.5 - 11 = 16.5
           
      • 최소값 13.75
        • 1사분위수 - 1.5 x 4분위수 범위
           
      • 최대값 52.25
        • 3사분위수 + 1.5 x 4분위수 범위
           
      • 이상치 56

     

     

     

    4. 도수분표표와 히스토그램

    • 도수분포표
      • 범주형 데이터들이 나타내는  빈도수를 정리해 놓은 표
         
    • 히스토그램
      • 도수분표를 그래프로 나타낸것
         

     

     

    - 확률이란?

    728x90

    'ML&DL&AI > 기초통계' 카테고리의 다른 글

    통계의 변수란  (0) 2023.08.03
    분석을 위한 데이터란?  (0) 2023.08.03
    기초 통계는 무엇일까?  (0) 2023.08.03
Designed by Tistory.