Logistilise
regressioonimudeli illustreerimine, variant 2 (kaks diagrammi ühel joonisel)
Logistiline
regressioonanalüüs on enim rakendatav binaarsete
(0-1-tüüpi) tunnuste modelleerimise meetod.
Uuritav tunnus e funktsioontunnus e sõltuv
muutuja (y) sellisel analüüsil mõõdab
mingi sündmuse toimumist (väärtus '1')
või mittetoimumist (väärtus '0')
ning argumenttunnus e sõltumatu muutuja (x)
kujutab enesest (pidevat) arvtunnust.
Kuigi
uuritava tunnuse väärtuste prognoosimiseks
on kasutatav ka lineaarne regressioonanalüüs
(võrrand on kujul y = a + bx),
ei garanteeri taoline avaldis prognooside jäämist
lubatavatesse piiridesse (vahemikku 0-st 1-ni). Sestap
on kasutusel mitmeid mittelineaarseid teisendusi,
millest levinuim on logit-teisendus.
Logistilise
regressiooni valem, prognoosimaks tunnuse y väärtusi
tunnuse x väärtuste kaudu, on kujul:
logit(y)
= a + bx,
kus
logit(y) = y / (1 - y).
Uuritava
sündmuse toimumise tõenäosus avaldub
siis kujul
y
= ea+bx / (1+ea+bx) = 1 / (1+e-a-bx).
Kuigi
taolise analüüsi teostamiseks ning tulemuste
illustreerimiseks Excelis otseselt vahendid
puuduvad, on vastavad ülesanded piisavate teadmiste
ja oskuste korral siiski lahendatavad.
Andmed.
Uuriti taimekahjurite surevust sõltuvalt taimemürgi
kontsentratsioonist. Näiteandmestik sisaldab
andmeid seitsmel erineval kontsentratsioonil läbi
viidud katsete tulemuste kohta (igal kontsentratsioonil
8 katset, kukku 56 katset). Uuritava tunnuse väärtus
'1' vastab kahjuri surmale ja väärtus '0'
kahjuri ellu jäämisele. Andmed võite
katsetamiseks alla laadida siit:
kahjur1.xls.
Ülesanne.
Konstrueerida diagramm illustreerimaks logistilise
regressiooni tulemusi - joonistada logistilise regressioonifunktsiooni
graafik (argumenttunnuse väärtuste piirkonnas
pideva joonena ning sellest väljaspool kriipsjoonena)
ning esitada algandmetele vastavad punktid täiendava
joonisena logistilise regressioonivõrrandi
graafiku kohal.
Probleem.
Excel paigutab punktdiagrammil samadele väärtustele
vastavad punktid kohakuti, tehes võimatuks
väärtuste mingis piirkonnas paiknemise hulga
visuaalse hindamise (üks väärtus näib
joonisel samaväärsena 10 väärtusega),
samuti ei võimalda Excel esitada ühel
joonisel korraga mitut erinevate telgedega diagrammi.
Lahendus.
- Joonistada
erinevad diagrammid samadele telgedele (muutes vajadusel
telgede ulatust ja skaalat), seejärel keelata
Excelil algsete telgede ja nende väärtuste
kuvamine ning joonistada uued teljed ja väärtused
fiktiivsete andmeseeriate alusel;
- kohakuti
paiknevate punktide väärtusi tuleb muuta
nii, et punktid paigutuksid joonisel kõrvuti.
Tööjuhend.
1)
- 3) Need etapid on identsed logistilise regressioonanalüüsi
tulemuste illustreemise variandiga 1, mistap neid
siin kohal enam pikemalt ei kirjelda (vt eelmist
juhendit).
Nende etappide järgselt peaks olema valmis järgmine
joonis (ja töölehel abitabel logistilisest
regressioonivõrrandist prognoositud väärtustega,
mille alusel antud joonis tehtud ongi):
4)
Järgnevalt tuleks valmis joonise kohale lisada
teine joonis, mis sisaldab algandmetele vastavaid
punkte (esitatuna mittekattuvana ning algse joonise
x-telje suhtes joondatuna).
Lisaks võiks sündmuse toimumisele ja mittetoimumisele
vastavate punktide vahele jätta vahe - on visuaalselt
selgem ja on ka koht, kuhu hiljem horisontaalset joont
tõmmata.
4.1)
Soovitud tulemuse saamiseks tuleb esmalt arvutada
uued mittekattuvad efektide väärtused ja
teha seda järgmise eeskirja kohaselt:
- juhul,
kui esimene samale kontsentratsioonile vastav väärtus
on 0, siis asendada see mingi ühest suurema
väärtusega (näiteks 1,25-ga - so
algandmetest moodustatava lisajoonise nö 0-väärtuste
kaugus logistilise regressioonivõrrandi graafiku
x-teljest - eelneval joonisel suurus A),
kui aga väärtus on 1, siis kirjutada selle
asemele näiteks 1,35 (sellega jääb
sündmuse toimumist ja mittetoimumist märkivate
punktide vahele tühi ruum ulatusega 1,35 -
1,25 = 0,1, so suurus B eelneval joonisel),
- iga
järgmine samale kontsentratsioonile vastav
väärtus võetakse eelnevast mingi
väikese suuruse võrra (näiteks
0,015 võrra - so suurus C joonisel)
väiksem (nö 0-sündmuse korral) või
suurem (nö 1-sündmuse korral).
Kirjeldatu
Excelis teostamiseks tuleks
- andmetabel
sorteerida argumenttunnuse (antud näites
'kontsentratsioon') väärtuste ja seejärel
funktsioontunnuse ('efekt') väärtuste
järgi;
- arvutada
uue tunnuse väärtused IF-funktsioone
kombineerides:
- kontrollides
esmalt, kas parajasti täidetavas reas on
tegu sama kontsentratsiooniga ja sama tulemusega,
kui eelmises reas;
- kui
on, siis vähendada või suurendada
(vastavalt sellele, kas efekti väärtuseks
on 0 või 1) rida üleval pool paiknevat
efekti väärtust mingi väikese
suuruse (näiteks 0,015 - suurus C
joonisel ülal pool) võrra,
- kui
ei ole, siis võtta 'efekt=0' korral uueks
väärtuseks näiteks 1,25 (suurus
A joonisel) ja 'efekt=1' korral uueks
väärtuseks näiteks 1,35 (suurus
A+B joonisel).
4.2)
Lisades joonisele uue andmeseeriana mittekattuvate
efektide veeru (x-telje väärtusteks on muidugi
esimeses veerus paiknevad katsetel rakendatud kontsentratsioonide
väärtused) ning muutes vajadusel y-telje
ulatust, et uus lisatud andmeseeria ikka graafikule
mahuks, on tulemuseks miskit alljärgnevat:
Edasi
tuleks kujundada uue andmeseeria esitus sobivaks (kaotada
ära punkte ühendav joon ning asendada Exceli
poolt vaikimisi andmepunktide tähistamiseks kasutatav
sümbol väiksema ja sobivama sümboliga.
Tulemus:
5)
Joonise edasise kujundamise käigust tuleks
- keelata
Excelil vertikaalse telje ja selle väärtuste
kuvamine,
- sisestada
Exceli töölehele abitabel lisamaks
graafikule joont otspunktidega (x, y) = (0, 0) ja
(x, y) = (0, 1) ning punkte (näiteks) sammuga
0,2 (nende punktide alusel kujunevad fiktiivsele
y-teljele ühikud),
- lisada
loodud abitabeli alusel joonisele uus andmeseeria
ning muuta selle kujundust (andmepunktide tähiseks
tumehall rist suurusega 3 ja jooneks tumehall peenike
pidev joon), täiendavalt tuleks lasta Excelil
lisada graafikule uue andmeseeria andmepunktide
väärtused (andmepunktidest vasakule poole).
6)
Sündmuse toimumist ja mittetoimumist märkivate
punktide vahele pideva joone lisamiseks tuleb ka selle
tarvis sisestada Exceli töölehele abitabel.
Soovides joont täpselt punktide vahele jäetud
tühja ala keskele, peab selle koordinaadiks y-telje
suhtes valima suuruse A+B/2 (vt joonist
tööjehendi alguses), so 1,30 antud näites.
Koordinaatideks x-telje suhtes peab valima 0 ja 80
(kui soovida joont kogu x-telje ulatuses, so 0-80
mg).
7)
Viimaks tuleks lisada telgedele nimetused, muuta vajadusel
x-telje skaala tihedust, kirjutada logistilise regressioonivõrrandi
graafiku kohal oleva joonise juurde, mis väärtusi
märgivad horisontaalsest joonest allpool olevad
punktid ('Surnud') ja mis väärtusi ülevalpool
olevad punktid ('Elus') ning lisada graafikule ka
veel logistiline regressioonivõrrand (lisatekstid
ja valemid on Excel 2007-s ja 2010-s lisatavad
näiteks tekstikastina).
|