責任編輯:admin123 閱讀量:3630次 發(fā)表時(shí)間:2022-01-18 18:01:50
ROC曲線(xiàn)來(lái)歷:相傳在第二次世界大戰期間,雷達兵的任務(wù)之一就是死死地盯住雷達顯示器,觀(guān)察是否有敵機來(lái)襲。理論上講,只要有敵機來(lái)襲,雷達屏幕上就會(huì )出現相應的信號,但是實(shí)際上,有時(shí)如果有飛鳥(niǎo)出現在雷達掃描區域時(shí),雷達屏幕上有時(shí)也會(huì )出現信號。這種情況令雷達兵煩惱不已:如果過(guò)于謹慎,凡是有信號就確定為敵機來(lái)襲,顯然會(huì )增加誤報風(fēng)險;如果過(guò)于大膽,凡是信號都認為飛鳥(niǎo),又會(huì )增加漏報的風(fēng)險。為了研究每個(gè)雷達兵預報的準確性,雷達兵的管理者匯總了所有雷達兵的預報特點(diǎn),特別是他們漏報和誤報的概率,并將這些概率畫(huà)到一個(gè)二維坐標里面。由于每個(gè)雷達兵的預報標準不同,且得到的敏感性和特異性的組合也不同。將這些雷達兵的預報性能進(jìn)行匯總后,雷達兵管理員發(fā)現他們剛好在一條曲線(xiàn)上,這條曲線(xiàn)就是我們經(jīng)常在醫學(xué)雜志上看見(jiàn)的ROC曲線(xiàn)。
ROC曲線(xiàn)(receiver operating characteristic curve):即接受者操作特性曲線(xiàn)。我們根據學(xué)習器的預測結果,把閾值從0變到最大,隨著(zhù)閾值的增大,學(xué)習器預測正例數越來(lái)越少,直到最后沒(méi)有一個(gè)樣本是正例。在這一過(guò)程中,每次計算出靈敏度和特異性,分別以它們?yōu)闄M、縱坐標作圖,就得到了ROC曲線(xiàn)。
AUC面積(area under curve):為ROC曲線(xiàn)下與坐標軸圍成的面積,這個(gè)面積數值 ≤ 1。由于ROC曲線(xiàn)一般都處于y = x這條直線(xiàn)的上方,所以AUC的取值范圍在0.5和1之間。我們往往使用AUC值作為模型的評價(jià)標準是AUC值越大,對應的模型效果更好。
準確率(accuracy)=(TP+TN)/(TP+TN+FP+FN),即被預測正確的樣本與所有預測樣本的比。
靈敏度(sensitivity)= TP /(TP+FN)×100%,即正確判斷陽(yáng)性的概率。
特異性(specificity)= TN /(FP+TN)×100%,即正確判斷陰性的概率。
陽(yáng)性預測值(PPV)= TP /(TP+FP)×100%,即被正確預測的陽(yáng)性樣本與所有預測為陽(yáng)性樣本的比。
陰性預測值(NPV)= TN /(FN+TN)×100%,即被正確預測的陰性樣本與所有預測為陰性樣本的比。
AUC面積用于模型性能的判斷
AUC值為ROC曲線(xiàn)所覆蓋的區域面積,顯AUC越大分類(lèi)器分類(lèi)效果越好。
AUC = 1,是完美分類(lèi)器,采用這個(gè)預測模型時(shí),能得出完美預測。絕大多數預測的場(chǎng)合,不存在完美分類(lèi)器。
0.5 < AUC < 1,優(yōu)于隨機猜測。這個(gè)模型設置合適的閾值,能有預測價(jià)值。
AUC = 0.5,跟隨機猜測一樣(例:丟硬幣),模型沒(méi)有預測價(jià)值
AUC < 0.5,比隨機猜測還差,但只要總是反預測結果而行,模型就優(yōu)于隨機猜測。