Classification Metric의 종류에 대해 알아보자.
먼저 사용되는 값들부터 정리해 보았다.(내가 알아보기 쉽게)
Actual(실제 결과) | |||
Positive | Negative | ||
Predict(모델이 예측한 결과) | Positive | True Positive(TP) | False Positive(FP) |
Negative | False Negative(FN) | True Negative(TN) |
TP: 실제 결과 - Positive, 모델 예측 결과 - Positive (정답인걸 정답이라고 맞췄다!)
FP: 실제 결과 - Negative, 모델 예측 결과 - Positive (오답인걸 정답이라고 해버렸다,,)
FN: 실제 결과 - Positive, 모델 예측 결과 - Negative (정답인데 오답이라고 해버렸다,,)
TN: 실제 결과 - Negative, 모델 예측 결과 - Negative (오답인걸 오답이라고 맞췄다!)
Accuracy(정확도) : 전체 데이터 예측 중 맞은 예측 비율 = TP + TN(맞춘 예측) / TP + FP + FN + TN(전체 예측)
값이 1에 가까울 수록 우수한 모델이다.
Recall(재현율) :
실제 결과가 Positive인 것 중에 모델 예측 결과가 Positive인 비율 = TP(Positive라고 맞춘 예측) / TP + FN(실제 결과가 Positive)
값이 1에 가까울수록 우수한 모델이다.
예를 들어 환자를 진단할때 병이 있으면 Positive, 병이 없으면 Negative로 생각해 보자 병이 있는데(Positive) 병이 없다고 예측(Negative)을 해버리면 위험하기에 FN(병이 있는데 없다고 예측)의 값이 낮으면 우수한 모델이라고 할 수 있다.
Precision(정밀도) :
모델 예측 결과가 Positive인 것 중에 실제 결과가 Positive인 비율 = TP(Positive라고 맞춘 예측)/ TP + FP(모델 예측 결과가 Positive)
값이 1에 가까울수록 우수한 모델이다.
예를 들어 스팸메일을 분류할때 정상메일을 Positive, 스팸메일을 Negative로 생각해 보자 이때는 스팸메일(Negative)을 정상메일(Positive)로 인지하면 안 되기에 FP(스팸메일인데 정상메일로 인식)의 값이 낮으면 우수한 모델이라고 할 수 있다.
F1 score(Recall(재현율)+Precision(정밀도)) :2 x{Recall(TP / TP + FN) x Precision(TP / TP + FP)} / {Recall(TP / TP + FN) + Precision(TP / TP + FP)}
값이 1에 가까울수록 우수한 모델이다.
GPT의 예시
- 가정해 봅시다. 어떤 의료 응용 프로그램에서 종양을 감지하는 이진 분류 모델을 평가하려고 합니다. 이 모델의 성능을 측정하기 위해 F1 Score를 사용할 수 있습니다.
- 모델 A의 결과:
- 정밀도(Precision): 0.85 (85%의 긍정 예측이 실제로 긍정)
- 재현율(Recall): 0.75 (75%의 긍정 사례를 감지)
- F1 Score: 0.80
- 모델 B의 결과:
- 정밀도(Precision): 0.90 (90%의 긍정 예측이 실제로 긍정)
- 재현율(Recall): 0.70 (70%의 긍정 사례를 감지)
- F1 Score: 0.79
- 두 모델 중 어떤 측면을 더 중요하게 생각하는지에 따라 모델을 선택할 수 있습니다. F1 Score가 높은 모델은 정밀도와 재현율이 균형있게 높은 경우로 해석할 수 있습니다.
- 모델 A의 결과:
종양 감지하는 것이라고 했으니 F1 Score는 낮으나 정밀도(Precision)가 높은 B 모델을 사용하는 것이 적합할 것 같다.
'공부 > AI' 카테고리의 다른 글
GPT_3(노마드코더) (0) | 2024.01.18 |
---|---|
GPT_2(노마드코더) (0) | 2023.11.30 |
GPT_1(노마드코더) (0) | 2023.11.28 |
AI 기초 실습 (0) | 2023.09.06 |
댓글