STORY
MinJ is_

2022년/[멋쟁이 사자처럼] AI 회고

[7주차] 추가공부

KMinJis 2022. 11. 3. 17:48

# 오늘 코드 - 조은 강사님과 함께하는 수업💖

# 7주차 동안 진행한 3일의 수업 중 더 공부해보고싶거나 복습해보고 싶었던 내용 정리입니다.

# 미드프로젝트와 개인 일정으로 오랜만에 작성합니다!

 

Feature Engineering


Feature Engineering이란,

머신러닝 알고리즘을 작동하기 위해 도메인 지식을 사용하여 원시 데이터에서 특징(특성, 속성, 속성) 을 추출 하는 프로세스를 말한다.

 

◆ Feature Extraction

  • 정의 및 특징
    - 원본 특징들의 조합으로 새로운특징을 생성하는 것
    - 고차원의 원본 feature 공간은 저차원의 새로운 feature 공간으로 투영시킨다.
    - 새롭게 구성된 feature 공간은 보통 원본 feature 공간의 선형 또는 비선형 결합이다.
    - 관측 데이터를 잘 설명할 수 있는 잠재 공간을 찾는 것
    - PCA, LDA, SVD, NMF 등
  • PCA (Principle Component Analysis)
    - 가장 대표적인 알고리즘 
    - 데이터의 분산은 최대한 보존하면서 서로 직교하는 새 기저(축)을 찾아,
      고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법

 

◆ Feature Selection

  • 정의 및 특징
    - 모델 구성에 사용할 관련 기능 (변수, 예측 변수)의 하위 집합을 선택하는 프로세스
    - 특징이 많고 샘플이 비교적 적은 영역에서 자주 사용
  • 사용 이유
    - 훈련 시간 단축
    - 연구자/사용자가 해석하기 쉽도록 모델 단순화
    - 차원의 저주를 피하기 위해
        * 차원의 저주란 ?
          일상 경험 의 3차원 물리적 공간과 같은 저차원 환경에서 발생하지 않는 고차원 공간에서 데이터를 분석하고
          정리할 때 발생하는 다양한 현상
    - 학습 모델 클래스와의 데이터 호환성 향상
  • Feature Extraction과 다른점
    - 특징 추출은 원래 특징의 기능에서 새로운 특징을 생성하는 반면 특징 선택은 특징의 하위 집합을 반환
  • 방법
    1) Wrapper method : 모델링을 돌리면서 변수 채택
         - Feature의 조합을 바꾸어 가며 기계학습을 돌리고, 성능을 평가
         - 많은 시간 비용 필요
         - 훈련 데이터셋에 overfitting 가능성 있음
    2) Filter Method : 전처리단계에서 통계기법을 사용하여 변수 채택
         - 대표 예시 : 종속변수와 독립 변수 간의 피어슨 상관계수를 이용한느 것
         - Wrapper method에 비해 시간 단축 효과
        - 가장 많이 사용되는 방법
    3) Embedded method : 라쏘, 릿지, 엘라스틱넷 등 내장함수를 사용하여 변수 채택
         - 모델 자체에 Feature selection 기능이 추가되어 있는 경우
           (ex) Lasso Regression, Ridge Regression, Decision Tree 등

◆ Feature Construction

  • 정의 및 특징
    - 모델링 성능을 높이는 새로운 특성을 만드는 과정
    - 분야 전문성이 요구됨
  • 특징 구축 Process
     1) features를 테스트하고 브레인 스토밍하는 단계
     2) 어떤 features를 생성할지 결정
     3) features를 생성
     4) 생성한 features가 모델에서 어떻게 작용하는 지 확인
     5) 필요할 경우 features 개선시키기
     6) 작업이 완료될 때까지 브레인스토밍과 features를 생성하는 단계 반복
  • 방식 
    - Business Driven Features
      사업 현장의 비즈니스 관점에서 데이터를 분석하여 특징을 만들어 내는 방식
    - Data Driven Features
      비즈니스 관점이 없이도 주어진 데이터를 다루는 과정에서 특징을 만들어 내는 방식
  • 변수 생성 방법
    - 지표 변수 
      (ex) 나이 특성으로부터 20세 이상은 성인으로 나머지는 성인 아님으로 구분
    - 중복 특징 : 두 개의 특징을 결합하여 새로운 특징 생성
      (ex) 클릭 수와 접속수를 결합해 클릭당 방문자 수 feature 생성
    - 대표 특징 : 특징들로부터 대표성을 갖는 새로운 특징들을 만듬
      (ex) 모든 학생들의 정보 데이터에서 초등학교 / 중학교 / 고등학교와 같이 대표성을 가지는 특징을 생성
    - 이 외에 외부데이터, 에러 분석 등이 있음

* 참고 및 출처 *

https://huidea.tistory.com/44

 

[Machine learning] PCA 주성분분석 (쉽게 설명하는 차원 축소 기법들 총정리 part1) 200803

Index 1. 차원 축소는 왜 하는가? 2. PCA 2.0 기본컨셉 2.1 그림으로 살펴보기 2.2.선형대수학 개념 후려쳐서 2.3 코드로 살펴보기 -------------------------------- (다음 포스팅에서) 3. LDA 4. SVD 1. 차원 축소는

huidea.tistory.com

https://velog.io/@guide333/%EC%95%84%EC%9D%B4%ED%9A%A8-Feature-Engineering

 

[아이효] Feature Engineering

이 포스팅은 스터디 준비하면서 만든 자료를 정리한 것입니다. Feature Engineering을 잘 표현한 문장이다. Feature Engineering은 데이터 분석에서 많은 지분을 차지하는 부분이다.

velog.io

https://en.wikipedia.org/wiki/Feature_selection

 

Feature selection - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search Procedure in machine learning and statistics In machine learning and statistics, feature selection, also known as variable selection, attribute selection or variable subset selection,

en.wikipedia.org

https://raeminkang.github.io/machine%20learning/2019/07/27/Feature-Engineering.html

'2022년 > [멋쟁이 사자처럼] AI 회고' 카테고리의 다른 글

[10주차] 추가공부  (1) 2022.11.24
[9주차] 추가공부  (0) 2022.11.17
[8주차] 추가공부  (0) 2022.11.10
[2주차] 추가 공부  (1) 2022.09.29
[1주차] 추가 공부  (0) 2022.09.22