Logistiline
regressioon
Logistiline
regressioon
(ingl. logistic regression) või
üldisemalt logistiline mudel ehk logit-mudel
prognoosib uuritava sündmuse toimumise tõenäosust
ja selle muutumist sõltuvalt pideva argumenttunnuse
väärtuse muutumisest.
Kuigi
binaarse, väärtustega 0 ja 1, tunnuse modelleerimiseks
võib kasutada ka lineaarset regressioonivõrrandit
kujul
y
= a + bx
(regressioonikordajatele
vähimruutude printsiipi rahuldavate hinnangute
saamiseks ei ole muid piiranguid, kui et nii uuritav
ehk sõltuv tunnus y kui ka argument-
ehk sõltumatu tunnus x peavad olema
arvulised), ei garanteeri lineaarne regressioonanalüüs
saadavate prognooside jäämist mõistlikku
vahemikku 0-st 1-ni. Seevastu logistilise regressiooni
abil leitud tõenäosuste hinnangud jäävad
alati 0 ja 1 vahele (vt järgmine joonis).
Logistilise
regressiooni mudeli (logit-mudeli), mis binaarse tunnuse
y suhtes on tegelikult mittelineaarne mudel
(nagu näha ka eelnevalt jooniselt), võib
esitada mitmel erineval viisil.
Üks
variant on panna mudel kirja uuritava sündmuse
toimumise tõenäosuse p = P(y=1)
tarvis kujul
p
= P(y=1|x) = exp(α + βx)/[1
+ exp(α + βx)] = 1 / [1 +
exp(–α – βx).
Alternatiivne
esitus on logit-funktsioonina kujul
ln[p/(1-p)]
= logit(p) = α + βx.
- Logistilise
regressiooni võrrandi parameetrite tõlgendamine
lähtub tõsiasjast, et suhe p/(1-p)
kujutab enesest huvipakkuva sündmuse toimumise
anssi -- näitab, kui mitu korda
tõenäolisem on uuritava sündmuse
toimumine võrreldes sündmuse mittetoimumisega.
- Suurus
ln[p/(1-p)] on siis logaritmiline
anss (ingl. log odds).
- Juhul,
kui uuritava sündmuse toimumine on samaväärne
sündmuse mittetoimumisega, st et p =
1 - p = 0,5, siis võrdub anss
ühega: p/(1-p) = 1, ja logaritmiline
anss nulliga: ln[p/(1-p)] =
0 (sest ln(1) = 0). Logistilise regressiooni kontekstis
vastab ansi ühega võrdumine olukorrale,
kus α + βx = 0.
- Logistilise
regressioonivõrrandi kordaja β
eksponent eβ näitab,
kui mitu korda muutub sündmuse toimumise anss
argumendi muutumisel ühe ühiku võrra.
Tuleneb see logistilise regressiooni võrrandist,
mille kohaselt p/(1-p) = eα
+ βx ja millest omakorda järeldub,
et
eα
+ β(x+1) = eαeβxeβ
= eα + βxeβ
= eβ[p/(1-p)]
(x-i
suurenemine ühe võrra muudab anssi
eβ korda).
- Seega
kujutab kordaja β eksponent eβ
enesest ansside suhet: eβ
= OR.
Näiteks
kui eβ = OR = 2,
siis kaasneb argumenttunnuse väärtuse
suurenemisega ühe võrra sündmuse
toimumise ansi kahekordne suurenemine (sündmuse
toimumine muutub sündmuse mittetoimumisega
võrreldes kaks korda tõenäolisemaks).
Negatiivse regressioonikordaja β korral
ansside suhe väheneb, sest eβ
= OR < 1. St, et mida suurem on argumenttunnuse
x väärtus, seda ebatõenäolisem
on huvipakkuva sündmuse toimumine võrreldes
sündmuse mittetoimumisega.
- Eelnevast
tulenevalt on ka loomulik, et kui kordaja β
on positiivne, siis argumentunnuse x väärtuse
suurenedes suureneb ka uuritava sündmuse tõenäosus
(tegu on positiivse seosega), kui aga kordaja β
on negatiivne, siis argumentunnuse x väärtuse
suurenedes uuritava sündmuse tõenäosus
väheneb (tegu on negatiivse seosega).
Vaatame
näitena andmestikku 66 tudengi vastustest nende
soo ja nädalas keskmiselt joodava õllekoguse
kohta (andmed Exceli tabelina võib alla laadida
aadressilt http://www.emu.ee/~ktanel/bin_tunnuste_analyys/tudeng_ja_6lu.xlsx).
Rakendame
logistilist regressioonanalüüsi prognoosimaks
meheks olemise tõenäosust nädalas
keskmiselt tarbitava õllekoguse alusel.
Andmeid
ja analüüsi tulemusi on illustreeritud
järgneval joonisel (ringid vastavad erinevatele
õllekogustele ja ringi suurus tudengite arvule,
pidev must joon on logistilise regressioonivõrrandi
graafik ning y-telg vastab meheks olemise tõenäosusele).
Nagu
jooniselt näha, on naistudengite hulgas enim
õlut mittejoovaid tudengeid, meestudengite
tarbitavad õllekogused on suuremad, mistap
on loomulik ka logistilise regressioonivõrrandi
graafiku suund -- mida suurem on nädalas tarbitav
õllekogus, seda suurema tõenäosusega
on tegu meestudengiga.
Logistilise
regressiooni võrrandi parameetrite hinnanguiks
on: α = -2,11 ja β = 1,42.
Seega on logistiline regressioonivõrrand
esitatav kas joonisel toodud kujul (prognoosimaks
meheks olemise tõenäosust)
p
= P(Mees) = 1 / (1 + e2,11 -
1,42*Õlu)
või siis lineaarse võrrandina logaritmilise
ansi tarvis kujul
ln[p/(1-p)]
= -2,11 + 1,42*Õlu.
ansside
suhe avaldub kordaja β = 1,42 eksponentfunktsioonina:
OR = e1,42 = 4,13. Seega
suurendab tudengite puhul ühe lisaliitri õlle
joomine nädalas meheks olemise anssi
4,13 korda võrreldes naiseks olemise ansiga.
Logistiline regressioon online-kalkulaatori abil:
|