ML&DL&AI
-
머신러닝 7과정 실습ML&DL&AI/ML 2023. 8. 4. 14:13
1. 문제정의 500명의 키, 몸무게 데이터를 통해서 비만도 계산하기 머신러닝의 과정을 이해하기 2. 데이터 수집 라이브러리 불러오기 import numpy as np = 수치계산용 라이브러리 import pandas as pd = 행과 열을 가지는 표와 같은 형태의 데이터를 다루는 라이브러리 import matplotlib.pyplot as plt = 시각화 라이브러리 import numpy as np import pandas as pd import matplotlib.pyplot as plt 데이터 읽어오기(data 라는 변수에 넣기) 단 label > 인덱스로 만들어주기 data = pd.read_csv('data/bmi_500.csv', index_col= 'Label') data 데이터 크기 확..
-
머신러닝의 과정ML&DL&AI/ML 2023. 8. 4. 10:53
머신러닝의 과정 Problem Identification(문제 정의) Data Collect(데이터 수집) Data Preprocessing(데이터 전처리) EDA(탐색적 데이터분석) Model 선택, Hyper Parameter 조정 Training(학습) Evaluation(평가) 1. Problem Identification(문제 정의) 비즈니스 목적 정의모델을 어떻게 사용해 이익을 얻을까? 현재 솔류션의 구성 파악 지도 VS 비지도 VS 강화 분류 VS 회귀 2. Data Collect(데이터 수집) File (CSV, XML, JSON) Database Web Crawler (뉴스, SNS, 블로그) lot 센서를 통한 수집 Survey 3. Data Preprocessing(데이터 전처리) 결..
-
머신러닝의 종류ML&DL&AI/ML 2023. 8. 4. 10:25
1. 머신러닝의 등장 데이터를 이용하여 스스로 특성과 패턴을 찾아 학습하고 예측을 수행하는 것 머신러닝의 종류 지도학습 (Supervised Learning) 비지도학습 (Unsupervised Learning) 강화학습 (Reinforcement Lerarning) 2. 지도학습 데이터에 대한 Label(명서적인 답)이 주어진 상태에서 컴퓨터를 학습시키는 방법. 분류(Classification)와 회귀(Regression) 범주형 데이터가 있으면 분류를 사용 ex) 생존여부, 암 판정, 스팸 메일 분류, 품종분류 등등 연속형 데이터가 있으면 회귀를 사용 ex) 키, 몸무게, 급여, 집 가격 예측 등등 - 분류(Classification) 미리 정의된 여러 클래스 레이블 중 하나를 예측하는 것 (범주형)..
-
인공지능의 바라보는 시선ML&DL&AI/ML 2023. 8. 4. 09:36
1. 인공지능을 바라보는 시선 benfucial Ai 2017 컨퍼런스 인공지능의 위험성에 대한 우려로 제정 불쾌한 골짜기 인간이 로봇에 대해 호감도가 증가하다가 어느 정도에 도달하면 갑자기 강한 거부감을 느끼는 현상 지능, 윤리 & 도덕 관점 단순히 똑똑한 것을 넘어 서서 옳고, 그름을 판별할 수 있는 지능을 가지는 것이 인공지능 ex) 이루다 사건, 윤리적 딜레마 등등 2. Rule-based expert system 규칙기반 전문가 시스템 if 와 else로 하드 코딩된 명령을 사용하는 시스템 문제점 많은 상황에 대한 규칙들을 모두 만들어 낼 수 없음 제작한 로직이 특정 작업에만 국한되어 작업이 조금만 변경되어도 전체 시스템을 다시 만들어야 할 가능성이 높음 규칙을 설계하려면 해당 분야에 대해서 잘..
-
머신러닝이란?ML&DL&AI/ML 2023. 8. 3. 12:49
1. 머신러닝이란? 데이터를 기반으로 학습을 시켜서 예측하게 만드는 기법 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘 기술을 개발하는 분야 통계학, 데이터 마이닝, 컴퓨터 과학이 어우러진 분야 - AI vs ML vs DL의 차이점 인공지능 (Artificial Intelligence) 사고나 학습등 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술 머신러닝 (Machine Learning) 컴퓨터가 스스로 학습하여 인공지능의 성능을 향상 시키는 기술 방법 딥러닝(Deep Learning) 인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리 2. ML의 역사 Alan Mathison Turing (1912.06.23 ~ 1954.06.07) 영국의 수학자, 암호학자, 논리학자 19..
-
통계의 변수란ML&DL&AI/기초통계 2023. 8. 3. 12:14
1. 변수간의 관계 변수간의 차이에서 의미를 찾아보기 ex) 부모키 영향(유전), 운동량, 생활 환경, 생활 습관 등등 - 독립변수와 종속변수 독립변수 연구자가 의도적으로 변화시키는 변수 종속변수 연구자 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수 독립변수와 종속변수는 인과 관계를 가지고 있다 독립변수는 원인 종속변수는 결과 2. 연속형 변수들간의 관계 - 상관분석 / 상관관계 연속 변수로 측정되는 두 변수간의 선형관계(밀접한 정도)를 분석하는 기법 한 변수가 증가하면 다른 한변수도 선형적으로 증가 혹은 감소를 나타내는 것 상관 계수 -1 ~ 1 사이로 나타낼 수 있다. - 상관 분석과 상관관계 상관 분석 확률론과 통계학에서 두 변수 간에 어떤 선형적 관계를 갖고 있는지 분석하는 방법 상관..
-
분산과 사분위수(Quartile)ML&DL&AI/기초통계 2023. 8. 3. 11:32
1. 분산 관측치들이 평균에서 평균적으로 얼마나 떨어져있는지를 계산 분산이 0에 가깝다면 평균 근처에 몰려있다는 것을 의미 분산이 커진다면 평균에 멀리 떨어져있다는 것을 의미 쉽게 말해 분포되어 있는 정도(흩어진 정도)를 의미 -, + 부호는 상관없어짐, 분산된 정도를 확인하면 되기때문 제곱했을 때 값이 월등히 커지기 때문에 분산의 정도가 확연하게 보임 제곱 말고 절댓값을 쓸 수 있지만, 계산할 때 미분가능한 분산 값을 더 선호 현실적인 이유 평균에서 100명이 100원씩 차이가 날 경우 2명이 5000원씩 차이가 날때 절대값 100 x 100원 = 2 x 5,000원 = 10,000원 분산값 100 x (100원)² = 1,000,000원² < 2x (5000원)² = 50,000,000원² - 표준편..
-
분석을 위한 데이터란?ML&DL&AI/기초통계 2023. 8. 3. 10:47
1. 분석을 위한 데이터의 모습 데이터는 변수(열)와 관측치(행)으로 구성 변수(Variable) ↓ 관측치 → 이름 성별 나이 키 A 여 25 174 B 여 25 165 C 남 30 185 D 여 23 163 2. 데이터의 표현 데이터를 표현하기 위한 약속이 존재 복잡하게 둘러 말해하는 경우는 수식을 이용해 간단하게 설명 변수의 개수 p, 관측치의 개수는 n 데이터의 크기 표현 n x p (실제로 곱하는것은 아님) 변수 그자체는 x라고 표현 한다. - 기술통계량과 변수 요약 변수의 특징을 설명하기 위해 다양한 연산을 사용하는데, 이 계산된 숫자들을 통계량 이라고 부르고, 특히 데이터의 특징을 잘 설명하는 통계량을 기술통계량(Descriptive Statistics)이라고 부른다. 대표적인 기술 통계량 ..