ML&DL&AI/통계

데이터 추출

Hoon0211 2024. 6. 14. 13:34
728x90

데이터 추출 (Data Sampling)

데이터 추출은 기계 학습 모델을 훈련시키기 위해 데이터셋에서 일부 데이터를 선택하는 과정입니다. 이는 데이터의 크기를 줄이거나, 데이터의 다양한 특성을 반영한 작은 샘플을 만드는 데 유용합니다.

랜덤 추출

랜덤 추출은 데이터셋에서 임의로 데이터를 선택하는 방법입니다.

 

1. 단일 랜덤 추출

    • choice() 메서드를 사용하여 1개의 원소를 랜덤으로 추출할 수 있습니다.
import numpy as np
data = np.arange(100)  # 0부터 99까지의 배열 생성
random_sample = np.random.choice(data)
print(random_sample)

 

 
2. 랜덤 추출 (중복 없이):
  • sample() 메서드를 사용하여 k개의 데이터를 중복 없이 추출할 수 있습니다.
import random
data = list(range(100))  # 0부터 99까지의 리스트 생성
random_samples = random.sample(data, k=5)
print(random_samples)

 

3. 균등 분포에서의 랜덤 추출

  • 균등 분포는 주어진 범위 내에서 모든 값이 동일한 확률로 선택되는 분포입니다.
  • uniform(a, b, size) 메서드를 사용하여 범위 [a, b] 내에서 size 개의 데이터를 균등 분포로 추출할 수 있습니다.
import numpy as np
uniform_samples = np.random.uniform(a=0, b=10, size=5)
print(uniform_samples)

 

4. 표준 정규 분포에서의 랜덤 추출

  • 표준 정규 분포는 평균이 0이고, 표준 편차가 1인 정규 분포를 의미합니다.
  • normal(loc, scale, size) 메서드를 사용하여 평균이 loc, 표준 편차가 scale인 정규 분포에서 size 개의 데이터를 추출할 수 있습니다.
import numpy as np
normal_samples = np.random.normal(loc=0, scale=1, size=5)
print(normal_samples)

 

728x90