ML&DL&AI/통계
-
데이터 추출ML&DL&AI/통계 2024. 6. 14. 13:34
데이터 추출 (Data Sampling)데이터 추출은 기계 학습 모델을 훈련시키기 위해 데이터셋에서 일부 데이터를 선택하는 과정입니다. 이는 데이터의 크기를 줄이거나, 데이터의 다양한 특성을 반영한 작은 샘플을 만드는 데 유용합니다.랜덤 추출랜덤 추출은 데이터셋에서 임의로 데이터를 선택하는 방법입니다. 1. 단일 랜덤 추출choice() 메서드를 사용하여 1개의 원소를 랜덤으로 추출할 수 있습니다.import numpy as npdata = np.arange(100) # 0부터 99까지의 배열 생성random_sample = np.random.choice(data)print(random_sample) 2. 랜덤 추출 (중복 없이):sample() 메서드를 사용하여 k개의 데이터를 중복 없이 추출할 수..
-
최소 제곱법ML&DL&AI/통계 2024. 6. 14. 13:21
선형 회귀(Linear Regression)선형 회귀는 주어진 데이터를 학습하여 가장 합리적인 선형 함수를 찾아내는 문제입니다.이 방법은 데이터 포인트들이 선형 관계를 가질 때, 그 관계를 설명하고 예측할 수 있도록 도와줍니다.일반적으로 학습 데이터가 3개 이상일 때 의미가 있습니다. 선형 함수 모델이제 우리의 모델(W와 b)을 수정해 나가면서 가장 합리적인 식을 찾아낼 수 있다.가설함수 : f(x) = Wx + b 비용우리의 모델이 뱉은 답이 실제 정답과 얼마나 다른지 수치화한 것우리의 모델이 정확하지 않다면, 높은 비용이 발생비용은 다른 말로 손실(loss)이라고 한다. 최소제곱법(Least Square Method)평균 제곱 오차를 이용 할 수 있다.따라서 다음식을 최소화하는 파라미터(W,b)를 ..
-
편향과 오차ML&DL&AI/통계 2024. 6. 13. 14:31
편향된 데이터실제 데이터를 반영하지 못 하고, 편향된 데이터유명 해외 얼굴 데이터 세트는 대부분 서양인 얼굴로 구성ex) 한국인을 대상으로 하는 서비스에 적합하지 않다 편향(Bias)과 분산(Variance)편향이 높을떄 모델의 예측한 값이 정답과 멀리 떨어져 있는 경우분산이 높을 때 모델이 예측한 값이 서로 멀리 떨어져 있는 경우 오차(Error)기계 학습 모델의 성능을 평가하기 위해 오차를 계산하기는 과정현재 학습 중인 모델이 얼마나 잘못되었는지 측정할 필요 평균 제곱 오차(Mean Squared Error)대표적인 오차 계산 함수 중 하나가 평균 제곱 오차평균 제곱 오차는 오차를 제곱한 값의 평균
-
최대 가능도 추정ML&DL&AI/통계 2024. 6. 13. 14:24
최대 가능도 추정(Maximum Likelihood Estimation)최대 가능도 추정은 주어진 데이터가 관찰될 가능성을 최대화하는 분포의 모수를 추정하는 통계적 방법입니다.이 방법은 데이터를 통해 모수 θ를 찾는 문제로 이해할 수 있습니다.즉, 확률 밀도 함수에서 모수를 변수로 간주하는 접근법입니다. 가능도 함수 추정하고자 하는 확률 분포에 따라 가능도 함수(Likelihood Function)를 다르게 정의할 수 있습니다.가능도 함수는 주어진 데이터가 특정 모수 값에서 관찰될 가능성을 나타내는 함수입니다. 최대 가능도 추정값모수 θ 최대 가능도 추정값(MLE)은 가능도 함수를 최대화하는 θ의 값입니다.이를 수식으로 나타내면 다음과 같습니다
-
확률 분포의 추정ML&DL&AI/통계 2024. 6. 13. 14:09
확률분포의 추정확률 분포의 추정은 우리가 가진 데이터로부터 확률 분포를 추정하는 기술을 의미를 합니다.이는 주어진 데이터가 특정 확률 분포를 따르는지 확인하고, 해당 분포의 파라미터를 추정하는 과정입니다.우리는 결과적으로 데이터의 확률 분포를 알고 싶으며, 우리가 가지고 있는 데이터는 이러한 확률 분포를 추정하기 위한 도구로 사용할 수 있다.. 데이터의 형태와 분포 추정기본적으로 데이터의 형태를 보고 원하는 분포를 추정할 수 있습니다.베르누이 분포: 데이터가 0 혹은 1의 형태를 가질 때.정규 분포: 데이터가 크기 제한이 없는 실수 형태를 가질 때.카테고리 분포: 데이터가 특정 카테고리 값을 가질 때. 확률 분포 추정 방법주어진 데이터를 이용해 확률 분포를 계산하는 대표적인 두 가지 방법이 있습니다모멘트..
-
공분산과 상관계수ML&DL&AI/통계 2024. 6. 13. 13:53
공분산(Covariance)확률 변수가 하나일때 분산을 계산할 수 있습니.분산은 단일 변수의 값들이 평균으로부터 얼마나 떨어져 있는지를 나타냅니다. 공분산의 공식 분산과 마찬가지로, 데이터가 평균으로부터 얼마나 멀리 떨어져 있는지 나타낸다.평균값의 위치와 표본 위치 사이의 사각형 면적을 사용한다. 공분산의 경우 데이터의 위치에 따라 부호가 다르게 반영된다. 양수 부호 : 데이터가 1사분면과 3사분면에 위치할 때 공분산은 양수입니다.이는 두 변수가 같은 방향으로 변동함을 의미합니다.음수 부호 : 데이터가 2사분면과 4사분면에 위치할 때 공분산은 음수입니다.이는 두 변수가 반대 방향으로 변동함을 의미합니다. 공분산은 데이터가 어떻게 분포되어 있는지에 대한 크기와 방향성을 같이 보여준다. 크기 : 공분산의..
-
분산과 표준편차ML&DL&AI/통계 2024. 6. 12. 17:25
분산(Variance)주어진 데이터의 흩어짐 정도를 나타내는 통계적 측도.데이터 값과 평균 값 간의 차이를 제곱한 후, 그 제곱값들의 평균을 구하는 방식으로 계산 분산(Variance)을 사용하는 이유편차는 평균과의 차이 이므로, 편차를 모두 더하면 0이 되어 버린다.그래서 편차를 단순히 더하지 않고, 제곱해서 구한다.분산이 작을때 : 각 데이터가 평균에 가깝다.분산이 클때 : 각 데이터 평균에서 멀다. 표준편차(Standard Deviation)분산의 양의 제곱근으로, 데이터의 흩어짐 정도를 원래 데이터의 단위로 표현한 것입니다.분산은 편차의 제곱을 사용하여 계산되기 때문에 그 값이 상대적으로 커질 수 있으며,이를 보정하기 위해 표준편차를 사용합니다.
-
평균과 기대값ML&DL&AI/통계 2024. 6. 12. 17:01
평균(Mean)평균에는 다양한 종류가 있으며, 가장 일반적인 평균은 산술 평균 산술 평균(arithmetic mean)모든 관측 값을 더해 관측 값의 개수로 나눈 것이다. 평균의 오류미국 노스캐롤라니아 대학의 졸업생 평균 연봉이 가장 높은 학과는?지리학과가 1등으로 마이클 조던이 지리학과 졸업생이였기 때문이였다. 중앙값(Median)주어진 값들을 순서대로 정렬했을 때, 가장 중앙에 위치하는 값이다.예를 들어 3, 5, 100이 였을때 평균은 36이지만, 중앙 값은 5이다. 평균 vs 중앙값평균 : 데이터 분포가 정규분포처럼 대칭적인 경우중앙값 : 데이터의 분포가 한쪽으로 치우쳐졌거나, 이상가 존재하는 경우 기대값(Expectation)각 사건에 대해 확률 변수와 확률 값을 곱하여, 전체 사건에 대하여 모..