💡 "[K-MOOC] 실습으로 배우는 머신러닝"을 수강한 내용을 바탕으로 작성된 글입니다.
머신러닝 프로세스
🔎 Data Science Process
- Prior Kowledge / Data Understanding : 배경지식 / 데이터 이해
- PreParation : Prepare Data
- Modeling
(1) 알고리즘을 사용하여 모델 만들기
(2) Training Data로 학습
(3) Test Data를 Model에 적용하고 평가하여 개선 방안 마련
(4) 최적화된 모델을 찾을 때까지 (1) ~ (3) 반복 - Application : Deployment
- Knowledge and Actions
🔎 Data 관련 용어
- Dataset : 정의된 구조로 모아져 있는 데이터 집합
- Observation (Data Point) : 데이터 세트에 포함된 하나의 관측치
- Feature (Variable, Attribute) : 데이터를 구성하는 하나의 특성 (종류) 숫자형, 범주형, 시간, 텍스트, 이진형 등
- Label (Target, Response) : 입력 변수들에 따라 예측 또는 분류되는 출력 변수
➕ 정형 데이터 : 표형태로 잘 정리되어 있는 데이터
➕ 비정형 데이터 : 정확하게 각각 의미있는 변수를 가지고서 표현하기 어려운 데이터
(ex) 이미지, 텍스트
🔎 분류 / 회귀
- 분류 (Classification) : 종속 변수(y)가 범주형일 때 사용
- 회귀 (Regression) : 종속변수(y)가 연속형일 때 사용
🔎 Data 준비 과정
- Dataset Exploration
✔ EDA(Exploratory Data Analysis)
: 데이터 변수 별 기본적인 특성들을 탐색하고 데이터의 분포적인 특징 이해 - Missing Value : 결측치 보정 필요
- Data Type and Conversion : 여러 종류의 데이터 타입을 분석이 가능한 형태로 변환 후 사용
- Normalization : 데이터 변수 간의 단위 차이가 클 경우 정규화
- Outliers : 다른 관측치와 크게 차이가 나는 관측치들 처리 필요
- Feature Selection : 필요시 중요한 변수만 선택
- Data Sampling
: 모델 검증 / 이상치 관측 모델링 / 앙상블 모델링 등을 할 때 전체 데이터에서 일부분만 추출하는 과정을 가지기도 함
🔎 Modeling
- Model : 입력 변수와 출력 변수 간의 관계를 정의해줄 수 있는 추상적인 함수 구조
- Build model
- Evaluation
- Final Model : 2를 통해 1를 보완하는 과정을 반복하여 만든 최적화 Model
🔎 Modeling 검증
⚠ Underfitting
: 학습을 충분히 하지 않아 예측력이 떨어짐
: Training error ↑ Validation error ↑
⚠ Overfitting
: 학습을 너무 많이하여 Train Data에 대한 예측력은 높지만 일반화하지 못해 Test Data에 대한 예측력은 낮은 것
: Training error ↓ Validation error ↑
✅ Validation error이 최소화되는 모델 찾기 !
'2022년 > [K-MOOC] 실습으로 배우는 머신러닝' 카테고리의 다른 글
[4주차] Model Learning with Optimization (0) | 2022.11.22 |
---|---|
[3주차] Classification (0) | 2022.11.22 |
[1주차] Intorduction to Machine Learning (1) | 2022.11.21 |