728x90

데이터 & AI/코칭스터디10기<Beyond AI BASIC 2023> 8

5.하이퍼 파라미터 튜닝과 앙상블

SUMMARY: 1. 하이퍼 파라미터 튜닝이란? 2. Boosting Tree 하이퍼 파라미터 3. Optuna 소개 1. 하이퍼 파라미터 튜닝이란? 일단 파라미터는 모델이 학습 과정에서 배워나가는 값을 의미한다. 하이퍼 파라미터는 학습 이전에 사람이 컨트롤할 수 있는 값을 의미한다. 설정값이라고 봐도 괜찮을거 같다. learning_rate나 n_estimators 같은 값들이 하이퍼 파라미터가 될 수 있다. 하이퍼파라미터 튜닝은 하이퍼 파라미터를 최적화하는 과정을 의미한다. 하이퍼 파라미터를 어떻게 설정하냐에 따라서 모델의 성능의 차이가 있다. 그래서 모델의 성능을 높이기 위해서는 적절한 하이퍼 파라미터를 찾아야 한다. 하이퍼 파라미터 튜닝에는 대표적인 4가지가 존재한다. Manual Search G..

4.피처엔지니어링 - 피처 중요도와 피처선택

SUMMARY: 1. 피처 중요도란? ● Model-specific vs Model-agnostic 2. Boosting Tree 피처 중요도 3. Permutation 피처 중요도 4. 피처 선택이란? ■ Filter Method ■ Wrapper Method ■ Embedded Method 1. 피처 중요도란? 피처 중요도 : 타겟 변수를 예측하는 데 얼마나 유용한 지에 따라 피처에 점수를 할당해서 중요도를 측정하는 방법. 피처 중요도는 크게 두 가지 방법으로 나눠서 생각할 수 있다 Model-specific Model-agnostic ※ 머신러닝 모델 자체에서 피처 중요도 계산이 가능하다면 쓰는 방법 ex) LightGBM 모델의 경우에는 피처가 트리를 만드는 데 몇 번이나 사용됐는지를 계산함으로써..

4. 피처 엔지니어링-피처 엔지니어링(2)-이론

The Aims: 다양한 피처 엔지니어링 확인, 좋은 피처인지 구분하는 능력 기르기 핵심 단어 누적합 SUMMARY: 1. Pandas Group by 누적합을 이용한 Feature Engineering 2. 주문, 상품 데이터를 활용한 Feature Engineering 3. Time Series 특성을 이용한 Feature Engineering 1. Pandas Group by 누적합을 이용한 Feature Engineering 누적합(cunsum)은 시간 또는 순서에 따라 증가하는 데이터의 총합계를 표시하는 데 사용하는 함수이다. 예를 들어[1,2,3,4]의 데이터가 주어졌을 때 누적합은 10이 된다. 하나의 쇼핑데이터를 예로 들면 Total(구매액), Quantity(상품개수),Price(상품 가..

4.피처 엔지니어링 - 피처 엔지니어링(1)-이론

BEFORE: 머신러닝 모델의 성능을 올리는 데 가장 중요한 핵심은 피처 엔지니어링을 통해 좋은 피처를 찾아내는 것이다. 이번 강의에서 대회 데이터를 통해 어떻게 피처 엔지니어링을 하는지 알아보고 그 외에 모델 성능을 올릴 수 있는 기법에 대해서도 알아보겠다. The Aims: 집계를 활용한 피처 엔지니어링에 대해 배우고, 어떤 피처가 좋은 피처인지 구분하는 능력을 기른다. 핵심 단어: 피처 엔지니어링 Cross Validation 1. 피처 엔지니어링: 피처 엔지니어링이란 원본 데이터로부터 도메인 지식 등을 바탕으로 문제를 해결하는 데 도움이 되는 피처를 생성,변환하고 이를 머신러닝 모델에 적합한 형식으로 변환하는 작업이다. *여기서 피처는 데이터의 특징으로 테이블에서 열을 의미 * 딥러닝과 다르게 머..

2.정형 데이터 전처리 - 데이터 전처리(1)

BEFORE: 머신러닝 모델에 데이터를 입력하기 위해서는 데이터에 대한 적절한 전처리가 필요하다. 범주형,연속형 데이터를 어떻게 전처리할 수 있는지, 범주형 데이터를 변화하는 다양한 인코딩 방법과 각 방법의 장단점에 대해 알아보자 THE AIMS: 범주형 및 연속형 데이터 전처리 방법과 데이터 상 결측치와 이상치 처리 방법을 이해하자 핵심 단어 데이터 전처리 연속형, 범주형 처리 Scaling Log, Quantile Transformation Binning Encoding Embedding 데이터 전처리 - 연속형, 범주형 처리 - 결측치 처리 - 이상치 처리 데이터 전처리란 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정을 의미한다. EDA를 적절히 하기 위해 데이터의 구조를 바꾸고 처리하는 과..

728x90