-
데이터 추출ML&DL&AI/통계 2024. 6. 14. 13:34728x90
데이터 추출 (Data Sampling)
데이터 추출은 기계 학습 모델을 훈련시키기 위해 데이터셋에서 일부 데이터를 선택하는 과정입니다. 이는 데이터의 크기를 줄이거나, 데이터의 다양한 특성을 반영한 작은 샘플을 만드는 데 유용합니다.
랜덤 추출
랜덤 추출은 데이터셋에서 임의로 데이터를 선택하는 방법입니다.
1. 단일 랜덤 추출
-
- choice() 메서드를 사용하여 1개의 원소를 랜덤으로 추출할 수 있습니다.
import numpy as np data = np.arange(100) # 0부터 99까지의 배열 생성 random_sample = np.random.choice(data) print(random_sample)
2. 랜덤 추출 (중복 없이):- sample() 메서드를 사용하여 k개의 데이터를 중복 없이 추출할 수 있습니다.
import random data = list(range(100)) # 0부터 99까지의 리스트 생성 random_samples = random.sample(data, k=5) print(random_samples)
3. 균등 분포에서의 랜덤 추출
- 균등 분포는 주어진 범위 내에서 모든 값이 동일한 확률로 선택되는 분포입니다.
- uniform(a, b, size) 메서드를 사용하여 범위 [a, b] 내에서 size 개의 데이터를 균등 분포로 추출할 수 있습니다.
import numpy as np uniform_samples = np.random.uniform(a=0, b=10, size=5) print(uniform_samples)
4. 표준 정규 분포에서의 랜덤 추출
- 표준 정규 분포는 평균이 0이고, 표준 편차가 1인 정규 분포를 의미합니다.
- normal(loc, scale, size) 메서드를 사용하여 평균이 loc, 표준 편차가 scale인 정규 분포에서 size 개의 데이터를 추출할 수 있습니다.
import numpy as np normal_samples = np.random.normal(loc=0, scale=1, size=5) print(normal_samples)
728x90 -