[2주차] Machine Learning Pipeline

2022년/[K-MOOC] 실습으로 배우는 머신러닝

KMinJis 2022. 11. 21. 17:41

💡 "[K-MOOC] 실습으로 배우는 머신러닝"을 수강한 내용을 바탕으로 작성된 글입니다.

🔎 Data Science Process

Prior Kowledge / Data Understanding : 배경지식 / 데이터 이해
PreParation : Prepare Data
Modeling
(1) 알고리즘을 사용하여 모델 만들기
(2) Training Data로 학습
(3) Test Data를 Model에 적용하고 평가하여 개선 방안 마련
(4) 최적화된 모델을 찾을 때까지 (1) ~ (3) 반복
Application : Deployment
Knowledge and Actions

🔎 Data 관련 용어

Dataset : 정의된 구조로 모아져 있는 데이터 집합
Observation (Data Point) : 데이터 세트에 포함된 하나의 관측치
Feature (Variable, Attribute) : 데이터를 구성하는 하나의 특성 (종류) 숫자형, 범주형, 시간, 텍스트, 이진형 등
Label (Target, Response) : 입력 변수들에 따라 예측 또는 분류되는 출력 변수

➕ 정형 데이터 : 표형태로 잘 정리되어 있는 데이터
➕ 비정형 데이터 : 정확하게 각각 의미있는 변수를 가지고서 표현하기 어려운 데이터
(ex) 이미지, 텍스트

🔎 분류 / 회귀

🔎 Data 준비 과정

Dataset Exploration
✔ EDA(Exploratory Data Analysis)
: 데이터 변수 별 기본적인 특성들을 탐색하고 데이터의 분포적인 특징 이해
Missing Value : 결측치 보정 필요
Data Type and Conversion : 여러 종류의 데이터 타입을 분석이 가능한 형태로 변환 후 사용
Normalization : 데이터 변수 간의 단위 차이가 클 경우 정규화
Outliers : 다른 관측치와 크게 차이가 나는 관측치들 처리 필요
Feature Selection : 필요시 중요한 변수만 선택
Data Sampling
: 모델 검증 / 이상치 관측 모델링 / 앙상블 모델링 등을 할 때 전체 데이터에서 일부분만 추출하는 과정을 가지기도 함

🔎 Modeling

🔎 Modeling 검증

⚠ Underfitting
: 학습을 충분히 하지 않아 예측력이 떨어짐

: Training error ↑ Validation error ↑

⚠ Overfitting
: 학습을 너무 많이하여 Train Data에 대한 예측력은 높지만 일반화하지 못해 Test Data에 대한 예측력은 낮은 것

: Training error ↓ Validation error ↑

✅ Validation error이 최소화되는 모델 찾기 !

[4주차] Model Learning with Optimization (0)	2022.11.22
[3주차] Classification (0)	2022.11.22
[1주차] Intorduction to Machine Learning (1)	2022.11.21

KMinJis

하나은행 합격 후기, 은행 취준, 2024년 상반기, 은행 채용, 하나은행 필기, 은행 면접, 하나은행 면접, 하나은행 채용, 은행 서류, 하나은행 서류,

KMinJis