K-Means 클러스터링 — 데이터를 K개의 그룹으로 자동 분류합니다. 레이블(정답) 없이 비슷한 데이터끼리 묶는
비지도 학습 알고리즘입니다.
Train으로 클러스터를 학습하고, Val·Test에서 동일한 클러스터 할당 품질을 비교합니다.
비지도학습클러스터링실루엣점수Inertia
K-최근접 이웃 (KNN) — 새 데이터와 가장 가까운 K개의 이웃을 찾아 분류·예측합니다. 타겟 컬럼의 고유값이 20 이하면
분류, 초과하면
회귀로 자동 전환됩니다.
지도학습분류/회귀거리 기반Train/Val/Test
📂 데이터 업로드 (Train / Val / Test)
이웃 수 (K)
가중치
거리 척도
선형 회귀 (Linear Regression) — 수치형 타겟을 예측합니다. Ridge는 L2 정규화, Lasso는 L1 정규화를 적용해 과적합을 방지합니다.
회귀R²RMSERidgeLasso
📂 데이터 업로드 (Train / Val / Test)
로지스틱 회귀 (Logistic Regression) — 범주형 타겟을 분류합니다. 이름은 "회귀"지만 실제로는 분류 알고리즘으로, 각 클래스의 확률을 출력합니다.
분류확률 출력F1 Score다중 분류
📂 데이터 업로드 (Train / Val / Test)
결정 트리 (Decision Tree) — 데이터를 if-else 규칙으로 분기해 예측합니다. 해석이 직관적이며, 깊이(max_depth)로 과적합을 제어합니다.
분류/회귀피처 중요도트리 깊이Gini/Entropy
📂 데이터 업로드 (Train / Val / Test)
랜덤 포레스트 (Random Forest) — 수백 개의 결정 트리를 앙상블해 예측합니다. 단일 트리보다 과적합이 적고 피처 중요도를 제공합니다.
앙상블분류/회귀피처 중요도과적합 강건
📂 데이터 업로드 (Train / Val / Test)
XGBoost — Gradient Boosting 기반의 강력한 앙상블 알고리즘입니다. 캐글 대회에서 가장 많이 사용되는 알고리즘으로, 정확도와 속도 모두 우수합니다.
Gradient Boosting분류/회귀피처 중요도정규화
📂 데이터 업로드 (Train / Val / Test)
VAL (선택)
📂
검증 데이터
Early Stopping 용도로 활용