✅ 1. 머신러닝 기본 개념
(1) 지도학습(Supervised Learning)
정답이 있는 데이터를 이용해 학습하는 방식
→ Kaggle 대회의 대부분이 이 방식이다.
예시:
- 대출 승인 여부 예측 (0/1, Classification)
- 집값 예측 (숫자 예측, Regression)
(2) 특징(Feature)와 라벨(Label)
머신러닝 모델은 아래 2개로 구성된 데이터를 사용한다.
| Feature(피처) | 입력값, 모델이 참고하는 변수(나이, 소득, 나무 높이 등) |
| Label(타깃) | 정답값(승인 여부, 가격, 점수 등) |
Kaggle의 예:
loan_status → label
나머지 모든 컬럼 → features
(3) 모델(Model)
입력 데이터를 보고 정답을 예측하는 알고리즘.
Kaggle에서는 아래 모델들을 가장 많이 사용한다.
- LightGBM
- XGBoost
- CatBoost
- Logistic Regression
- Random Forest
- Neural Network(딥러닝)
특히 Tabular(표 형식) 문제는 LightGBM/XGBoost/CatBoost가 최강이다.
✅ 2. 데이터 전처리(Preprocessing)
Kaggle에서 가장 중요한 단계 중 하나.
(1) 결측치 처리(Missing Values)
데이터에 비어 있는 값이 있으면:
- 평균/중앙값으로 채우기
- 최빈값으로 채우기
- 모델 기반 채우기
- 또는 CatBoost처럼 자동 처리 기능 사용
(2) 범주형 변수 처리(Categorical Encoding)
문자/카테고리 데이터는 모델이 직접 사용할 수 없으므로 숫자로 변환해야 한다.
방법:
- One-Hot Encoding
- Label Encoding
- CatBoost Encoding
(3) 스케일링(Scaling)
데이터 단위를 고르게 만드는 작업 >> 딥러닝/로지스틱 회귀에서 특히 중요
- StandardScaler (평균=0, 표준편차=1로 변환)
- MinMaxScaler (0~1로 정규화)
단, Tree 모델(LGB/XGB/CatBoost)은 스케일링 필요 없음
3. 학습/검증/테스트 개념
(1) Train / Validation / Test 분리
모델이 과적합(overfitting)되지 않도록
훈련용, 검증용, 테스트용을 나눠야 한다.
Kaggle에서 가장 중요한 평가 방식은:
(2) K-Fold Cross Validation(CV)
데이터를 k개로 나눠 번갈아가며 검증하는 방식
불안정한 점수를 안정적으로 만들어 준다.
예: StratifiedKFold(n_splits=5)
Kaggle에서 성능을 올리려면CV 전략이 거의 절반이다.
✅ 4. 모델 평가 지표(Metrics)
대회마다 평가 기준이 다르다.
가장 많이 쓰는 지표:
| 이진분류 | AUC, Accuracy, F1 |
| 회귀 | RMSE, MAE |
| 이미지 | Accuracy, mAP |
| NLP | F1, BLEU |
특히 Kaggle에서는
Accuracy보다 AUC가 훨씬 중요하다.
✅ 5. 하이퍼파라미터(Hyperparameters)
모델이 학습하는 과정에서
"조정하는 여러 가지 설정"을 말한다.
예)
- learning_rate
- max_depth
- num_leaves
- n_estimators
튜닝할수록 성능이 올라간다.
튜닝 방법:
- Grid Search
- Random Search
- Optuna (가장 강력)
- Bayesian Optimization
✅ 6. 앙상블(Ensemble)
여러 모델을 함께 사용하는 방식.
Kaggle 상위권의 핵심 전략.
종류:
- Bagging
- Boosting
- Blending
- Stacking ← 가장 성능 좋음
- Voting Ensemble
Ensemble = 성능 증가 + 안정성 증가
✅ 7. Kaggle 실전 Workflow (가장 중요)
Kaggle에서 머신러닝 할 때 가장 흔한 완전한 작업 흐름:
이 순서를 반복하면 자연스럽게 실력이 성장한다.
⭐ 기초 개념만 알면 Kaggle은 바로 시작 가능하다
Kaggle은 초보자에게도 매우 친절한 플랫폼이라
기본 개념만 제대로 잡으면 누구나 시작할 수 있다.
필수 기초 개념 7개는 다음과 같다.
✔ 지도학습/분류/회귀
✔ Feature & Label
✔ 전처리(결측치/범주형 처리)
✔ One-hot / Label Encoding
✔ Cross-Validation (특히 K-Fold)
✔ 평가 지표(AUC, RMSE 등)
✔ 하이퍼파라미터 튜닝
이 정도만 알고 있어도
Playground 시리즈 정도는 충분히 도전 가능하다.
'Programing > Kaggle 입문' 카테고리의 다른 글
| [Kaggle 입문] 0. Kaggle이란 무엇인가 (0) | 2025.12.03 |
|---|


