Õpiobjektid -> Binaarsete tunnuste analüüsimeetodid

BINAARSETE TUNNUSTE ANALÜÜSIMEETODID


Õpiobjekti kirjeldus
Õpijuhis
 
1. Sissejuhatus
2. Binaarse tunnuse seos mittearvulise tunnusega või diskreetse arvtunnusega
3. Binaarse tunnuse seos pideva arvtunnusega
4. Enesekontroll
Lisa
¤ Kogu materjal ühe pdf-failina: bin_tunnuste_analyys.pdf

Tundlikkus ja spetsiifilisus

Üks prognoosimiseks kasutatavate testide, mudelite, algoritmide või tehnoloogiate rakendatavuse peamisi kriteeriume on saadavate prognooside täpsus. Juhul, kui prognoositavaks on binaarse tunnuse väärtus (mingi sündmuse toimumine), on prognoosi korrektsuse hindamiseks vajalikud suurused koondatavad järgmisesse 2x2-tabelisse.

Prognoos
Tegelik olek
Y = 0
(negatiivne)
Y = 1
(positiivne)
Kokku
Y = 0 (negatiivne)
TN
FN
TN+FN
Y = 1 (positiivne)
FP
TP
FP+TP
Kokku
TN+FP
FN+TP
TN+FN+FP+TP

Selles tabelis

  • TN märgib nende juhtude arvu, millal prognoosi kohaselt uuritavat sündmust ei oleks tohtinud toimuda ja tegelikult ka ei toimunud - so tõeselt negatiivsete juhtude arv (ingl. true negative, TN);
  • FN on ekslikult negatiivseks prognoositud juhtude arv - nö valenegatiivsete juhtude arv (ingl. false negative, FN);
  • TP on tõeselt positiivsete juhtude arv (ingl. true positive, TP);
  • FP on ekslikult ennustatud sündmuse toimumiste arv - nö valepositiivsete arv (ingl. false positive, FP).

Tõeselt ja vääralt positiivsete ja negatiivsete juhtude arvu alusel leitakse erinevatel erialadel suur hulk erinevaid prognoosi korrektsuse (ehk testi/mudeli/algoritmi/tehnoloogia toimimise) hindamiseks kasutatavaid karakteristikuid (ingl. operating characteristics), milledest enim kasutatud on tundlikkus ja spetsiifilisus (vt ka http://en.wikipedia.org/wiki/Sensitivity_and_specificity).

Tundlikkus (sensitiivsus, ingl. sensitivity) näitab, kui suure osa (kui mitu protsenti) uuritava sündmuse toimumistest ennustab kasutatud mudel õigesti:

Tundlikkus = TP / (TP+FN).

Mõnes valdkonnas defineeritakse tundlikkusega sama valemi abil tõeselt positiivsete määr (ingl. true positive rate,
TPR
= TP / (TP+FN)).

Spetsiifilisus (ingl. specificity) näitab, kui suure osa (kui mitu protsenti) uuritava sündmuse mittetoimumistest ennustab kasutatud mudel õigesti:

Spetsiifilisus = TN / (TN+FP).

Karakteristikut üks miinus spetsiifilisus nimetatakse valepositiivsete määraks (ingl. false positive rate,
FPR
= 1 - [TN / (TN+FP)] = FP / (TN+FP)).


Kui rakendada tudengite soo ja õlle tarbimise näites lihtsaimat võimalikku tudengi soo määramise algoritmi - loeme tudengi meheks, kui ta joob õlut, ja naiseks, kui ta õlut ei joo -, saame prognoosi täpsuse hindamiseks järgmise tabeli:

Prognoos
Tudengi tegelik sugu
Naine
Mees
Kokku
Ei joo õlut -> naine
27
2
29
Joob õlut -> mees
15
20
35
Kokku
42
22
64

Võttes sündmuse toimumiseks (positiivseks sündmuseks) tudengi meheks osutumise ja sündmuse mittetoimumiseks (negatiivseks sündmuseks) naiseks osutumise, on tõeselt negatiivsete otsustuste arv TN = 27 (27 naise kohta otsustati õigesti, et nad ei ole mehed), valenegatiivsete otsuste arv FN = 2 (kahe õlut mittejoova meestudengi sugu prognoositi valesti), valepositiivsete otsuste arv FP = 15 (15 õlut joona naistudengi sugu prognoositi valesti) ja tõeselt positiivsete otsuste arv TP = 20 (20 meestudengit prognoositi õigesti meesteks).

Testi tundlikkus avaldub suhtena

Tundlikkus = 20 / (20+2) = 0,909

ja spetsiifilisus suhtena

Spetsiifilisus = 27 / (27+15) = 0,643.

Seega õnnestub vaid õlle joomist ja mittejoomist kasutades õigesti ennustada 90,9% meestudengi ja 64,3% naistudengi sugu.


Tundlikkus ja spetsiifilisus (ja suur hulk muid karakteristikud) online-kalkulaatori abil:

 


< Eelmine

Creative Commons License Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License