머신러닝 실습

K-Means 클러스터링 — 데이터를 K개의 그룹으로 자동 분류합니다. 레이블(정답) 없이 비슷한 데이터끼리 묶는 비지도 학습 알고리즘입니다.
Train으로 클러스터를 학습하고, Val·Test에서 동일한 클러스터 할당 품질을 비교합니다.

비지도학습클러스터링실루엣점수Inertia

🔵 K-Means — 단계별 알고리즘 시뮬레이터

샘플 데이터 K 값

1 / 6

📂 데이터 업로드 (Train / Val / Test)

TRAIN

📂

학습 데이터

모델을 학습시킬 CSV

VAL (선택)

📂

검증 데이터

하이퍼파라미터 튜닝용

TEST

📂

테스트 데이터

최종 성능 평가용

클러스터 수 (K)

최대 반복 수

초기화 횟수 (n_init)

StandardScaler 정규화 적용

K-최근접 이웃 (KNN) — 새 데이터와 가장 가까운 K개의 이웃을 찾아 분류·예측합니다. 타겟 컬럼의 고유값이 20 이하면 분류, 초과하면 회귀로 자동 전환됩니다.

지도학습분류/회귀거리 기반Train/Val/Test

🟣 KNN — 단계별 알고리즘 시뮬레이터

샘플 데이터 K (이웃 수)

1 / 6

📂 데이터 업로드 (Train / Val / Test)

TRAIN

📂

학습 데이터

헤더 + 수치형 피처 + 타겟

VAL (선택)

📂

검증 데이터

하이퍼파라미터 튜닝용

TEST

📂

테스트 데이터

최종 성능 평가용

🎯 타겟 컬럼

이웃 수 (K)

가중치

거리 척도

선형 회귀 (Linear Regression) — 수치형 타겟을 예측합니다. Ridge는 L2 정규화, Lasso는 L1 정규화를 적용해 과적합을 방지합니다.

회귀R²RMSERidgeLasso

📈 선형 회귀 — 단계별 알고리즘 시뮬레이터

프리셋

1 / 6

📊

STEP 1 — 데이터 수집

수집된 데이터의 분포를 확인합니다.

📂 데이터 업로드 (Train / Val / Test)

TRAIN

📂

학습 데이터

수치형 피처 + 수치형 타겟

VAL (선택)

📂

검증 데이터

하이퍼파라미터 튜닝용

TEST

📂

테스트 데이터

최종 성능 평가용

🎯 타겟 컬럼

모델 종류

정규화 강도 (α)

로지스틱 회귀 (Logistic Regression) — 범주형 타겟을 분류합니다. 이름은 "회귀"지만 실제로는 분류 알고리즘으로, 각 클래스의 확률을 출력합니다.

분류확률 출력F1 Score다중 분류

🔀 로지스틱 회귀 — 단계별 알고리즘 시뮬레이터

프리셋

1 / 6

📊

STEP 1 — 데이터 수집

이진 분류 데이터를 시각화합니다.

📂 데이터 업로드 (Train / Val / Test)

TRAIN

📂

학습 데이터

범주형 타겟 컬럼 필요

VAL (선택)

📂

검증 데이터

하이퍼파라미터 튜닝용

TEST

📂

테스트 데이터

최종 성능 평가용

🎯 타겟 컬럼

정규화 강도 (C)

최대 반복 수

솔버

결정 트리 (Decision Tree) — 데이터를 if-else 규칙으로 분기해 예측합니다. 해석이 직관적이며, 깊이(max_depth)로 과적합을 제어합니다.

분류/회귀피처 중요도트리 깊이Gini/Entropy

🌿 결정 트리 — 단계별 알고리즘 시뮬레이터

프리셋

1 / 6

📊

STEP 1 — 데이터 수집

이진 분류 데이터를 시각화합니다.

📂 데이터 업로드 (Train / Val / Test)

TRAIN

📂

학습 데이터

분류 또는 회귀 모두 가능

VAL (선택)

📂

검증 데이터

하이퍼파라미터 튜닝용

TEST

📂

테스트 데이터

최종 성능 평가용

🎯 타겟 컬럼

최대 깊이 (0=제한없음)

분기 최소 샘플

리프 최소 샘플

분류 기준

랜덤 포레스트 (Random Forest) — 수백 개의 결정 트리를 앙상블해 예측합니다. 단일 트리보다 과적합이 적고 피처 중요도를 제공합니다.

앙상블분류/회귀피처 중요도과적합 강건

📂 데이터 업로드 (Train / Val / Test)

TRAIN

📂

학습 데이터

분류 또는 회귀 모두 가능

VAL (선택)

📂

검증 데이터

하이퍼파라미터 튜닝용

TEST

📂

테스트 데이터

최종 성능 평가용

🎯 타겟 컬럼

트리 수

최대 깊이 (0=제한없음)

분기 최소 샘플

최대 피처 수

XGBoost — Gradient Boosting 기반의 강력한 앙상블 알고리즘입니다. 캐글 대회에서 가장 많이 사용되는 알고리즘으로, 정확도와 속도 모두 우수합니다.

Gradient Boosting분류/회귀피처 중요도정규화

📂 데이터 업로드 (Train / Val / Test)

TRAIN

📂

학습 데이터

분류 또는 회귀 모두 가능

VAL (선택)

📂

검증 데이터

Early Stopping 용도로 활용

TEST

📂

테스트 데이터

최종 성능 평가용

🎯 타겟 컬럼

트리 수 (n_estimators)

트리 깊이 (max_depth)

학습률 (learning_rate)

행 샘플링 (subsample)

컬럼 샘플링

L1 정규화 (α)

L2 정규화 (λ)

분류 평가지표 — Confusion Matrix & 파생 지표 — 모델이 얼마나 잘 분류하는지 다각도로 측정합니다. 슬라이더로 민감도·특이도를 바꿔보며 지표 간 트레이드오프를 직접 체험하세요.

Confusion MatrixPrecisionRecallF1 ScoreROCAUC

🔲 Confusion Matrix 구조

모델의 예측 결과를 실제 정답과 비교해 4개의 칸으로 정리한 표입니다. 단순 정확도가 놓치는 오류 유형을 명확히 드러냅니다.

← 모델 예측 →

예측 양성

예측 음성

실제 양성

TP True Positive 올바른 양성 예측 ✓

FN False Negative 놓친 양성 (Type II)

실제 음성

FP False Positive 잘못된 경보 (Type I)

TN True Negative 올바른 음성 예측 ✓

TP·TN은 정답, FP는 오탐(경보 과잉), FN은 미탐(놓친 사례). 어떤 오류가 더 위험한가에 따라 최적화 방향이 달라집니다.

📐 파생 지표 공식

Accuracy (정확도)

(TP+TN)
─────────
TP+FP+FN+TN

전체 중 맞힌 비율. 불균형 데이터에서 오해 소지 있음.

Precision (정밀도)

TP
─────────
TP + FP

양성 예측 중 진짜 양성 비율. FP를 줄이는 게 목표.

Recall / Sensitivity

TP
─────────
TP + FN

실제 양성 중 잡아낸 비율. FN을 줄이는 게 목표.

F1 Score

2 × P × R
─────────
P + R

Precision과 Recall의 조화평균. 불균형 시 유용.

Specificity

TN
─────────
TN + FP

실제 음성 중 정확히 음성으로 예측한 비율.

AUC-ROC

∫ TPR d(FPR)

임계값 변화에 따른 ROC 곡선 아래 면적. 1에 가까울수록 우수.

🎮 인터랙티브 Confusion Matrix 시뮬레이터

슬라이더를 조정하면 행렬과 모든 지표가 실시간 업데이트됩니다. 프리셋을 눌러 다양한 현실 시나리오를 탐색하세요.

전체 30개 샘플 구성 ● 양성 15개 + ○ 음성 15개 = 30개

실제 양성 수 (총 30개 중)

민감도 (Recall / Sensitivity)80% 실제 양성 중 모델이 양성으로 맞힌 비율

특이도 (Specificity)90% 실제 음성 중 모델이 음성으로 맞힌 비율

← 모델 예측 →

예측 양성

예측 음성

실제 양성

80TP

20FN

실제 음성

10FP

90TN

해석 결과가 여기 표시됩니다.

🗂️ 샘플 데이터 미리보기 — 실제값 vs 예측값

슬라이더 비율에 따라 30개 샘플을 생성합니다. 각 행의 색이 Confusion Matrix의 어느 칸에 해당하는지 확인하세요.

📈 ROC 곡선 & AUC

📖 지표 해석 가이드 — 언제 무엇을 봐야 할까?

🏥 Recall 우선 상황

암 진단, 사기 탐지, 결함 검출 등 놓치는 것이 치명적인 경우.
FN(실제 환자를 정상이라 판정)을 최소화. Recall이 높을수록 미탐이 줄어듦.

📧 Precision 우선 상황

스팸 필터, 법적 분류, 추천 시스템 등 오탐이 비용이 높은 경우.
FP(정상 메일을 스팸 처리)를 최소화. Precision이 높을수록 신뢰도 상승.

⚖️ F1 Score 사용 상황

Precision·Recall 간 균형이 중요할 때, 특히 클래스 불균형 데이터에서. 단순 Accuracy는 다수 클래스를 전부 맞춰도 높게 나올 수 있어 F1이 더 신뢰됨.

📉 AUC-ROC 사용 상황

임계값(threshold)에 무관하게 모델 자체의 분리 능력을 비교할 때. 0.5 = 무작위, 1.0 = 완벽. 여러 모델 비교 시 AUC가 단일 지표로 유용.

⚠️ Accuracy의 함정

양성 1%, 음성 99%인 데이터에서 모두 음성 예측 시 Accuracy = 99%.
불균형 데이터에서는 Accuracy 단독 사용은 위험하며, Precision·Recall·F1을 함께 봐야 합니다.

🔁 Precision-Recall 트레이드오프

임계값을 낮추면 더 많이 양성 예측 → Recall↑ Precision↓.
임계값을 높이면 확실한 것만 양성 예측 → Precision↑ Recall↓.
시뮬레이터에서 슬라이더로 직접 확인해보세요.