전체 글
-
편향과 오차ML&DL&AI/통계 2024. 6. 13. 14:31
편향된 데이터실제 데이터를 반영하지 못 하고, 편향된 데이터유명 해외 얼굴 데이터 세트는 대부분 서양인 얼굴로 구성ex) 한국인을 대상으로 하는 서비스에 적합하지 않다 편향(Bias)과 분산(Variance)편향이 높을떄 모델의 예측한 값이 정답과 멀리 떨어져 있는 경우분산이 높을 때 모델이 예측한 값이 서로 멀리 떨어져 있는 경우 오차(Error)기계 학습 모델의 성능을 평가하기 위해 오차를 계산하기는 과정현재 학습 중인 모델이 얼마나 잘못되었는지 측정할 필요 평균 제곱 오차(Mean Squared Error)대표적인 오차 계산 함수 중 하나가 평균 제곱 오차평균 제곱 오차는 오차를 제곱한 값의 평균
-
최대 가능도 추정ML&DL&AI/통계 2024. 6. 13. 14:24
최대 가능도 추정(Maximum Likelihood Estimation)최대 가능도 추정은 주어진 데이터가 관찰될 가능성을 최대화하는 분포의 모수를 추정하는 통계적 방법입니다.이 방법은 데이터를 통해 모수 θ를 찾는 문제로 이해할 수 있습니다.즉, 확률 밀도 함수에서 모수를 변수로 간주하는 접근법입니다. 가능도 함수 추정하고자 하는 확률 분포에 따라 가능도 함수(Likelihood Function)를 다르게 정의할 수 있습니다.가능도 함수는 주어진 데이터가 특정 모수 값에서 관찰될 가능성을 나타내는 함수입니다. 최대 가능도 추정값모수 θ 최대 가능도 추정값(MLE)은 가능도 함수를 최대화하는 θ의 값입니다.이를 수식으로 나타내면 다음과 같습니다
-
확률 분포의 추정ML&DL&AI/통계 2024. 6. 13. 14:09
확률분포의 추정확률 분포의 추정은 우리가 가진 데이터로부터 확률 분포를 추정하는 기술을 의미를 합니다.이는 주어진 데이터가 특정 확률 분포를 따르는지 확인하고, 해당 분포의 파라미터를 추정하는 과정입니다.우리는 결과적으로 데이터의 확률 분포를 알고 싶으며, 우리가 가지고 있는 데이터는 이러한 확률 분포를 추정하기 위한 도구로 사용할 수 있다.. 데이터의 형태와 분포 추정기본적으로 데이터의 형태를 보고 원하는 분포를 추정할 수 있습니다.베르누이 분포: 데이터가 0 혹은 1의 형태를 가질 때.정규 분포: 데이터가 크기 제한이 없는 실수 형태를 가질 때.카테고리 분포: 데이터가 특정 카테고리 값을 가질 때. 확률 분포 추정 방법주어진 데이터를 이용해 확률 분포를 계산하는 대표적인 두 가지 방법이 있습니다모멘트..
-
공분산과 상관계수ML&DL&AI/통계 2024. 6. 13. 13:53
공분산(Covariance)확률 변수가 하나일때 분산을 계산할 수 있습니.분산은 단일 변수의 값들이 평균으로부터 얼마나 떨어져 있는지를 나타냅니다. 공분산의 공식 분산과 마찬가지로, 데이터가 평균으로부터 얼마나 멀리 떨어져 있는지 나타낸다.평균값의 위치와 표본 위치 사이의 사각형 면적을 사용한다. 공분산의 경우 데이터의 위치에 따라 부호가 다르게 반영된다. 양수 부호 : 데이터가 1사분면과 3사분면에 위치할 때 공분산은 양수입니다.이는 두 변수가 같은 방향으로 변동함을 의미합니다.음수 부호 : 데이터가 2사분면과 4사분면에 위치할 때 공분산은 음수입니다.이는 두 변수가 반대 방향으로 변동함을 의미합니다. 공분산은 데이터가 어떻게 분포되어 있는지에 대한 크기와 방향성을 같이 보여준다. 크기 : 공분산의..
-
분산과 표준편차ML&DL&AI/통계 2024. 6. 12. 17:25
분산(Variance)주어진 데이터의 흩어짐 정도를 나타내는 통계적 측도.데이터 값과 평균 값 간의 차이를 제곱한 후, 그 제곱값들의 평균을 구하는 방식으로 계산 분산(Variance)을 사용하는 이유편차는 평균과의 차이 이므로, 편차를 모두 더하면 0이 되어 버린다.그래서 편차를 단순히 더하지 않고, 제곱해서 구한다.분산이 작을때 : 각 데이터가 평균에 가깝다.분산이 클때 : 각 데이터 평균에서 멀다. 표준편차(Standard Deviation)분산의 양의 제곱근으로, 데이터의 흩어짐 정도를 원래 데이터의 단위로 표현한 것입니다.분산은 편차의 제곱을 사용하여 계산되기 때문에 그 값이 상대적으로 커질 수 있으며,이를 보정하기 위해 표준편차를 사용합니다.
-
평균과 기대값ML&DL&AI/통계 2024. 6. 12. 17:01
평균(Mean)평균에는 다양한 종류가 있으며, 가장 일반적인 평균은 산술 평균 산술 평균(arithmetic mean)모든 관측 값을 더해 관측 값의 개수로 나눈 것이다. 평균의 오류미국 노스캐롤라니아 대학의 졸업생 평균 연봉이 가장 높은 학과는?지리학과가 1등으로 마이클 조던이 지리학과 졸업생이였기 때문이였다. 중앙값(Median)주어진 값들을 순서대로 정렬했을 때, 가장 중앙에 위치하는 값이다.예를 들어 3, 5, 100이 였을때 평균은 36이지만, 중앙 값은 5이다. 평균 vs 중앙값평균 : 데이터 분포가 정규분포처럼 대칭적인 경우중앙값 : 데이터의 분포가 한쪽으로 치우쳐졌거나, 이상가 존재하는 경우 기대값(Expectation)각 사건에 대해 확률 변수와 확률 값을 곱하여, 전체 사건에 대하여 모..
-
베이즈 정리ML&DL&AI/통계 2024. 6. 12. 16:23
베이즈 정리(Bayes' Theorem)사건 A가 발생한 후 사건 B가 발생할 확률을 구하는 데 사용새로운 증거를 바탕으로 기존의 믿음을 업데이트하는 방법을 제공토마스 베이즈(Thomas Bayes)가 제안한 것으로, 통계학, 머신러닝, 데이터 분석 등 다양한 분야에서 널리 사용 베이즈 정리 공식 P(A∣B): B가 주어졌을 때 A의 조건부 확률 (사후 확률, Posterior Probability)P(B∣A): A가 주어졌을 때 B의 조건부 확률 (우도, Likelihood)P(A): A의 사전 확률 (Prior Probability)P(B): B의 사전 확률 (Normalization Factor)문제병원에서 특정 질병을 진단하는 테스트가 있다고 가정합니다. 이 테스트는 질병이 있는 사람에게는 99%..