모델 분류 성능 평가 지표(Classification Metric)

Classification Metric의 종류에 대해 알아보자.

먼저 사용되는 값들부터 정리해 보았다.(내가 알아보기 쉽게)

TP: 실제 결과 - Positive, 모델 예측 결과 - Positive (정답인걸 정답이라고 맞췄다!)

FP: 실제 결과 - Negative, 모델 예측 결과 - Positive (오답인걸 정답이라고 해버렸다,,)

FN: 실제 결과 - Positive, 모델 예측 결과 - Negative (정답인데 오답이라고 해버렸다,,)

TN: 실제 결과 - Negative, 모델 예측 결과 - Negative (오답인걸 오답이라고 맞췄다!)

Accuracy(정확도) : 전체 데이터 예측 중 맞은 예측 비율 = TP + TN(맞춘 예측) / TP + FP + FN + TN(전체 예측)

값이 1에 가까울 수록 우수한 모델이다.

Recall(재현율) :

실제 결과가 Positive인 것 중에 모델 예측 결과가 Positive인 비율 = TP(Positive라고 맞춘 예측) / TP + FN(실제 결과가 Positive)

값이 1에 가까울수록 우수한 모델이다.

예를 들어 환자를 진단할때 병이 있으면 Positive, 병이 없으면 Negative로 생각해 보자 병이 있는데(Positive) 병이 없다고 예측(Negative)을 해버리면 위험하기에 FN(병이 있는데 없다고 예측)의 값이 낮으면 우수한 모델이라고 할 수 있다.

Precision(정밀도) :

모델 예측 결과가 Positive인 것 중에 실제 결과가 Positive인 비율 = TP(Positive라고 맞춘 예측)/ TP + FP(모델 예측 결과가 Positive)

값이 1에 가까울수록 우수한 모델이다.

예를 들어 스팸메일을 분류할때 정상메일을 Positive, 스팸메일을 Negative로 생각해 보자 이때는 스팸메일(Negative)을 정상메일(Positive)로 인지하면 안 되기에 FP(스팸메일인데 정상메일로 인식)의 값이 낮으면 우수한 모델이라고 할 수 있다.

F1 score(Recall(재현율)+Precision(정밀도)) :2 x{Recall(TP / TP + FN) x Precision(TP / TP + FP)} / {Recall(TP / TP + FN) + Precision(TP / TP + FP)}

값이 1에 가까울수록 우수한 모델이다.

GPT의 예시

종양 감지하는 것이라고 했으니 F1 Score는 낮으나 정밀도(Precision)가 높은 B 모델을 사용하는 것이 적합할 것 같다.

줘요코드