STORY
MinJ is_

2022년/[K-MOOC] 실습으로 배우는 머신러닝

[2주차] Machine Learning Pipeline

KMinJis 2022. 11. 21. 17:41

💡 "[K-MOOC] 실습으로 배우는 머신러닝"을 수강한 내용을 바탕으로 작성된 글입니다.

 


 

머신러닝 프로세스


🔎 Data Science Process 

  1. Prior Kowledge / Data Understanding : 배경지식 / 데이터 이해
  2. PreParation : Prepare Data
  3. Modeling
    (1) 알고리즘을 사용하여 모델 만들기
    (2) Training Data로 학습
    (3) Test Data를 Model에 적용하고 평가하여 개선 방안 마련
    (4) 최적화된 모델을 찾을 때까지 (1) ~ (3) 반복
  4. Application : Deployment
  5. Knowledge and Actions

🔎 Data 관련 용어 

  • Dataset : 정의된 구조로 모아져 있는 데이터 집합
  • Observation (Data Point) : 데이터 세트에 포함된 하나의 관측치
  • Feature (Variable, Attribute) : 데이터를 구성하는 하나의 특성 (종류) 숫자형, 범주형, 시간, 텍스트, 이진형 등
  • Label (Target, Response) : 입력 변수들에 따라 예측 또는 분류되는 출력 변수

    ➕ 정형 데이터 : 표형태로 잘 정리되어 있는 데이터
    ➕ 비정형 데이터 : 정확하게 각각 의미있는 변수를 가지고서 표현하기 어려운 데이터
                                    (ex) 이미지, 텍스트

🔎 분류 / 회귀 

  • 분류 (Classification) : 종속 변수(y)가 범주형일 때 사용
  • 회귀 (Regression) : 종속변수(y)가 연속형일 때 사용

🔎 Data 준비 과정 

  • Dataset Exploration
    ✔ EDA(Exploratory Data Analysis)
    : 데이터 변수 별 기본적인 특성들을 탐색하고 데이터의 분포적인 특징 이해
  • Missing Value : 결측치 보정 필요
  • Data Type and Conversion : 여러 종류의 데이터 타입을 분석이 가능한 형태로 변환 후 사용
  • Normalization : 데이터 변수 간의 단위 차이가 클 경우 정규화
  • Outliers : 다른 관측치와 크게 차이가 나는 관측치들 처리 필요
  • Feature Selection : 필요시 중요한 변수만 선택
  • Data Sampling
    : 모델 검증 / 이상치 관측 모델링 / 앙상블 모델링 등을 할 때 전체 데이터에서 일부분만 추출하는 과정을 가지기도 함 

🔎 Modeling 

  • Model : 입력 변수와 출력 변수 간의 관계를 정의해줄 수 있는 추상적인 함수 구조
  1. Build model
  2. Evaluation
  3. Final Model : 2를 통해 1를 보완하는 과정을 반복하여 만든 최적화 Model

🔎 Modeling 검증 

  ⚠ Underfitting
      : 학습을 충분히 하지 않아 예측력이 떨어짐

      : Training error ↑ Validation error ↑ 

  ⚠ Overfitting
      : 학습을 너무 많이하여 Train Data에 대한 예측력은 높지만 일반화하지 못해 Test Data에 대한 예측력은 낮은 것

      : Training error ↓ Validation error ↑

    ✅ Validation error이 최소화되는 모델 찾기 !