Precision vs Recall: 정밀도 재현율 이해하기
정밀도 재현율 한줄 요약
정밀도(Precision)는 인공지능 모델이 ‘양성으로 예측한 결과’ 중에서 실제로 양성인 비율을 의미합니다. 즉, 모델의 양성 예측이 얼마나 정확한지를 보여줍니다. 반면 재현율(Recall)은 ‘실제 양성 케이스’ 중에서 모델이 올바르게 양성으로 예측한 비율을 나타냅니다. 다시 말해, 모델이 실제 양성 케이스를 얼마나 잘 포착했는지를 측정합니다.
A-Dic
- 인공지능 모델: 데이터를 학습해 규칙을 발견하고 예측하는 프로그램입니다. 예를 들어 고양이 사진 데이터를 학습하면 새로운 사진이 고양이인지 구분할 수 있습니다.
- 양성(Positive): 관심 있는 대상이나 이벤트를 의미합니다. 예를 들어 암 진단 모델에서 ‘양성’은 ‘암 있음’을, 스팸 메일 분류 모델에서는 ‘스팸 메일’을 뜻합니다. 이는 모델이 감지하고자 하는 주요 대상입니다.
A-Book
간혹, 인공지능의 성능이 완벽하지 않다는 이유로 아예 사용하지 말아야 한다는 사람이 있습니다. 그러나 이는 지구에서 가장 높은 빌딩을 건설하고자 하는데 하늘에 뜬 보름달만큼 높지 않으므로 의미가 없다고 말하는 것과 같습니다. 새로 지으려는 빌딩의 높이는 보름달까지의 높이가 아니라 지구상에 존재하는 모든 빌딩의 높이에 기준을 두어야 합니다. 암을 진단하는 기존 방법의 정확도와 인공지능의 정확도를 비교해야지, 존재하지 않는 100% 암 진단의 정확도를 기준으로 하면 안 된다는 뜻입니다.
인공지능이 하는 일이 분류일 때는 다른 방법으로 성능을 평가해야 합니다. 사람의 몸속에는 평균 약 700개의 종양이 있습니다. 대부분 종양은 양성이므로 사는 데 전혀 지장이 없습니다. 그러나 이 중 하나가 음성이면 바로 암이 됩니다. 특정 종양이 실제로 암인지 아닌지는 종양을 절제해 정밀조직 검사를 해야 정확하게 알 수 있습니다. 그러나 700개나 존재하는 종양을 모두 절제할 수도 없고, 큰 비용이 드는 정밀조직 검사를 쉽게 할 수도 없습니다. 그래서 사용하는 방법이 초음파나 CT 촬영본을 인공지능으로 검사하는 것입니다.
김명락, 청소년을 위한 이것이 인공지능이다 -인공지능 성과를 평가하는 법 중에서
거짓 양성(위僞양성): 통계상 실제로는 음성인데 검사 결과는 양성이라고 나오는 것
한국정보통신기술협회, 신뢰할 수 있는 인공지능 개발 안내서: 의료분야(2023) – 용어정리 섹션 중에서
거짓 음성(위僞음성): 통계상 실제로는 양성인데 검사 결과는 음성이라고 나오는 것
오차행렬
인공지능 모델의 성능평가를 위해 분석결과를 분류한 표를 오차행렬이라고 한다. 아래의 오차행렬은 인공지능을 이용해서 암을 예측할 때의 4가지 경우를 상정해 본 것입니다. 예를 들면, 인공지능이 암이라고 예측했는데 실제로도 암인 경우는 a의 상황으로 인공지능이 제대로 맞춘 상황으로 진양성(TP, True Positive)라도고 합니다. 여기 F는 False 혹은 Fake로 틀림/가짜를 말하며, N은 Negative로 음성을 의미합니다.
구분 | AI 양성 예측 | AI 음성 예측 |
---|---|---|
실제 양성 (암환자) | a(인공지능 맞음) – 진양성(TP) | b(인공지능 틀림) – 위음성(FN) |
실제 음성 (암 아닌 환자) | c(인공지능 틀림) – 위양성(FP) | d(인공지능 맞음)- 진음성(TN) |
정확도
일반적으로 인공지능 모델성능평가 지표로 아래의 정확도(Accuracy)를 많이 언급됩니다.
정확도 수식
정확도 단점
그런데 데이터셋이 불균형할 경우, 정확도가 편향될 수 있습니다. 예를 들어, 질병 진단 모델을 만든다고 가정해 봅시다. 실제 질병이 있는 사람 데이터는 100개, 질병이 없는 사람 데이터는 10,000개라고 합시다(불균형 데이터셋). 여기서 만약 모델의 예측 결과 이 모든 데이터를 “질병 없음”으로 예측한다면, 정확도는 99%가 됩니다(a = 0, b = 100, c=0, d = 10,000).
하지만 이는 실제로 질병이 있는 환자를 모두 잘못 예측한 것입니다. 즉, 정확도가 높지만 실제로는 매우 편향된 결과입니다. 이처럼 불균형 데이터셋에서는 정확도만으로는 모델의 성능을 정확하게 평가할 수 없습니다.
정밀도 재현율
정밀도 수식 및 예시
이런 단점을 고려하여 또 다른 지표로 아래와 같이 정밀도(Precision)와 재현율(Recall)를 사용합니다. ‘인공지능 모델’이 암이라고 ‘예측’한 케이스(a, c)에서 실제 암인 케이스(a)의 비율로 정밀도를 나타냅니다. 정밀도가 80%라고 하면 인공지능이 암이라고 예측한 것에서 80%만 암이라는 뜻입니다.
재현율 수식 및 예시
반면, 재현율은 실제로 암인 케이스(a, b)에서 인공지능이 암이라고 예측한 케이스(a)의 비율입니다. 100명의 실제 암 환자의 자료(CT사진 등)로 인공지능이 80명 암환자로 판정내린다면 재현율은 80%가 됩니다.
암에 걸리지 않았는데 암 진단을 하고, 암에 걸렸는데 오진을 한다면 병원이든 그 사람에게 든 막대한 손실이 발생할 수 있기 때문에 정말 중요한 지표라고 하겠습니다.
정확도와 정밀도의 차이
사격을 예시로 들어서 설명을 하겠습니다.
정확도는 사격에서 과녁의 중심에 명중한 정도를 나타냅니다. 예를 들어, 여러 발의 총알이 과녁의 중심에 명중했다면 이는 정확도가 높다고 볼 수 있습니다. 즉, 목표물에 명중한 총알의 비율이 높을수록 사격의 정확도가 높다고 할 수 있습니다. 정확도가 높다는 것은 사수의 조준 능력과 함께 사격 기술이 뛰어나다는 것을 의미합니다.
정밀도는 사격에서 과녁에 표시되는 타점의 집중도를 나타냅니다. 예를 들어, 여러 발의 총알이 과녁의 한 지점에 모여 있다면 이는 정밀도가 높다고 볼 수 있습니다. 즉, 총알들이 목표 지점에 밀집되어 있어 정밀한 사격을 보여줍니다. 정밀도가 높다는 것은 사수의 조준 능력이 뛰어나다는 것을 의미합니다.
정리하기
공지능 모델의 성능을 평가하는 주요 지표로는 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) 등이 있습니다. 대개 정확도를 많이 이야기 하지만 불균형 데이터셋으로 인해 편향이 발생할 수 있기 때문에 정밀도와 재현율을 함께 고려합니다. 이 외에도 이 둘의 조화평균을 계산하는 F1-score, ROC 곡선과 AUC 등 다양한 지표를 함께 고려하여 모델의 성능을 종합적으로 평가를 해야 합니다.
‘secondlife.lol’의 모든 콘텐츠는 저작권법의 보호를 받습니다. 무단 전재와 복사, 배포 등을 금합니다.