ML&DL&AI/기초통계
-
통계의 변수란ML&DL&AI/기초통계 2023. 8. 3. 12:14
1. 변수간의 관계 변수간의 차이에서 의미를 찾아보기 ex) 부모키 영향(유전), 운동량, 생활 환경, 생활 습관 등등 - 독립변수와 종속변수 독립변수 연구자가 의도적으로 변화시키는 변수 종속변수 연구자 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수 독립변수와 종속변수는 인과 관계를 가지고 있다 독립변수는 원인 종속변수는 결과 2. 연속형 변수들간의 관계 - 상관분석 / 상관관계 연속 변수로 측정되는 두 변수간의 선형관계(밀접한 정도)를 분석하는 기법 한 변수가 증가하면 다른 한변수도 선형적으로 증가 혹은 감소를 나타내는 것 상관 계수 -1 ~ 1 사이로 나타낼 수 있다. - 상관 분석과 상관관계 상관 분석 확률론과 통계학에서 두 변수 간에 어떤 선형적 관계를 갖고 있는지 분석하는 방법 상관..
-
분산과 사분위수(Quartile)ML&DL&AI/기초통계 2023. 8. 3. 11:32
1. 분산 관측치들이 평균에서 평균적으로 얼마나 떨어져있는지를 계산 분산이 0에 가깝다면 평균 근처에 몰려있다는 것을 의미 분산이 커진다면 평균에 멀리 떨어져있다는 것을 의미 쉽게 말해 분포되어 있는 정도(흩어진 정도)를 의미 -, + 부호는 상관없어짐, 분산된 정도를 확인하면 되기때문 제곱했을 때 값이 월등히 커지기 때문에 분산의 정도가 확연하게 보임 제곱 말고 절댓값을 쓸 수 있지만, 계산할 때 미분가능한 분산 값을 더 선호 현실적인 이유 평균에서 100명이 100원씩 차이가 날 경우 2명이 5000원씩 차이가 날때 절대값 100 x 100원 = 2 x 5,000원 = 10,000원 분산값 100 x (100원)² = 1,000,000원² < 2x (5000원)² = 50,000,000원² - 표준편..
-
분석을 위한 데이터란?ML&DL&AI/기초통계 2023. 8. 3. 10:47
1. 분석을 위한 데이터의 모습 데이터는 변수(열)와 관측치(행)으로 구성 변수(Variable) ↓ 관측치 → 이름 성별 나이 키 A 여 25 174 B 여 25 165 C 남 30 185 D 여 23 163 2. 데이터의 표현 데이터를 표현하기 위한 약속이 존재 복잡하게 둘러 말해하는 경우는 수식을 이용해 간단하게 설명 변수의 개수 p, 관측치의 개수는 n 데이터의 크기 표현 n x p (실제로 곱하는것은 아님) 변수 그자체는 x라고 표현 한다. - 기술통계량과 변수 요약 변수의 특징을 설명하기 위해 다양한 연산을 사용하는데, 이 계산된 숫자들을 통계량 이라고 부르고, 특히 데이터의 특징을 잘 설명하는 통계량을 기술통계량(Descriptive Statistics)이라고 부른다. 대표적인 기술 통계량 ..
-
기초 통계는 무엇일까?ML&DL&AI/기초통계 2023. 8. 3. 10:14
1. 통계란 데이터를 요약하는 과정, 데이터를 요약해 만든 정보를 만드는 것을 뛰어넘어 데이터 속에 있는 차이를 확인하고 설명하는 것 과거를 담고있는 데이터와 오늘의 우리, 미지의 미래가 소통하는 언어 - 데이터 요약은 큰 틀에서 데이터의 특징을 숫자로 표한하여 그 속에서 차이를 확인하는 것이 중요 - 빅데이터란 디지털 환경에서 생성되는 수치, 문자, 이미지, 영상데이터 모두를 포함하는 대규모 데이터 2. 자료의 종류 Data : datum(자료, 정보)의 복수형, 통계학은 자료(재료)를 이용해서 정보(요리)를 만들어내는것 양적 자료 : 수치로 측정이 가능한 경우 이산형 자료 : 수치적인 의미가 있지만, 소수점으로 표현이 불가능한 경우 ex) 자녀 수 등등 연속형 자료 : 수치적인 의미가 있지만, 소수점..