ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 분석을 위한 데이터란?
    ML&DL&AI/기초통계 2023. 8. 3. 10:47
    728x90

    1. 분석을 위한 데이터의 모습

    • 데이터는 변수(열)와 관측치(행)으로 구성
    변수(Variable) ↓                  
    관측치 → 이름 성별 나이
    A 25 174
    B 25 165
    C 30 185
    D 23 163

     

     

     

    2. 데이터의 표현

    • 데이터를 표현하기 위한 약속이 존재
    • 복잡하게 둘러 말해하는 경우는 수식을 이용해 간단하게 설명
      • 변수의 개수 p, 관측치의 개수는 n
      • 데이터의 크기 표현 n x p (실제로 곱하는것은 아님)
      • 변수 그자체는 x라고 표현 한다.

     

     

    - 기술통계량과 변수 요약

    변수의 특징을 설명하기 위해 다양한 연산을 사용하는데, 이 계산된 숫자들을 통계량 이라고 부르고,

    특히 데이터의 특징을 잘 설명하는 통계량을 기술통계량(Descriptive Statistics)이라고 부른다.

    • 대표적인 기술 통계량 : 최솟값, 최대값, 중앙값, 분산 등
    • 연속성 : 순서를 정하거나 값들을 더해 통계량을 계산
    • 범주형 : 변수는 값이 같은 관측치들을 묶어 개수를 셈

     

     

    3. 데이터의 대표값

    • 대표값
      • 중심경향값이라고 불리며, 데이터들을 가장 잘 표현해주는 값
      • 평균값, 중앙값 최빈값이 있으며, 연구자의 선택에 따라 대표값이 정해진다.
      • 일반적으로 대표값은 평균값, 중앙값을 많이 사용
         
    • 평균값
      • 변수의 합게가 고정되어 있을때 모든 관측치가 똑같이 나눠 가질수 있는 값
      • ex) 80 90 90 90 100의 평균 점수는 90
        • 단.  1 90 90 90 100의 평균 점수는 74.2
        • 이상치가 존재할 경우 평균을 대표값으로 사용하면 오류가 날 수 있다.
           
    • 중앙값
      • 이상치의 영향을 덜 받을 수 있다.
      • 주어진 값을 크기의 순서대로 정렬 후 가장 중앙에 위치하는 값을 의미
      • ex)  1 90 90 90 100 의 중앙값은 90
        • 중앙값 구하는 방법
        • 1. 작은 수에서 큰 수 순으로 나열
        • 2. 홀수 개의 수가 있으면 중앙값은 한 가운데 있는 수
        • 3. 짝수 개의 수가 있으면 가운데에 있는 두수를 더한 다음 2로 나눈다.
           
    • 최빈값
      • 주어진 자료들 중 가장 많은 빈도로 나타나는 값
      • ex) 1 90 90 90 100 의 최빈값은 90
    728x90

    'ML&DL&AI > 기초통계' 카테고리의 다른 글

    통계의 변수란  (0) 2023.08.03
    분산과 사분위수(Quartile)  (0) 2023.08.03
    기초 통계는 무엇일까?  (0) 2023.08.03
Designed by Tistory.