Logistilise
regressioonimudeli illustreerimine, variant 3 (mulldiagrammi baasil)
Mõnikord
on tunnuste väärtused määratud mitte ükskindiviidide,
vaid gruppide tasemel (näiteks ei pruugi olla fikseeritud
iga looma haigestumus eraldi, vaid üksnes haigete loomade
arv laudas). Kui grupid on erineva suurusega, võib
üksnes gruppide keskmiste joonisel kujutamine anda visuaalselt
ebakorrektse pildi. Üks võimalikke lahendusi on
esitada igat gruppi märkiv punkt seda suuremana, mida
suurem on grupp - Excelis on selleks otstarbeks kasutatav
mulldiagramm
Andmed.
Uuriti teatud viljades talvituvate kahjurite surevust sõltuvalt
temperatuurist. Näiteandmestik sisaldab andmeid viljadest
leitud kahjurite koguarvu ning neist surnud olnud isendite arvu
kohta kuue erineva temperatuuri korral. Andmed võite katsetamiseks
alla laadida siit:
kahjur2.xls.
Ülesanne.
Konstrueerida diagramm illustreerimaks logistilise regressiooni
tulemusi ning erinevat kahjurite arvu erinevais viljades ja
temperatuuridel, lisada graafikule ka jooned märkimaks
0-kraadist temperatuuri ning 50%-list ja 90%-list surevust:
Probleem.
Excel ei võimalda kombineerida mulldiagrammi
teist tüüpi diagrammidega, seega ei ole võimalik
lisada mulldiagrammile logistilise regressioonivõrrandi
graafikut või siis kujutada logistilise regressionivõrrandi
graafikul andmepunkte erineva suurusega. Excelile omased
variandid on vaid järgmised:
või
Lahendus.
Lisada mulldiagrammile soovitavad lisajooned väga väikeste
väga tihedalt paiknevate mullide reana.
Tööjuhend.
1)
Esimese etapina tuleb arvutada joonisele kantavad surevusmäärad
e surevused ning konstrueerida nende alusel mulldiagramm.
Seejuures
on surevused mõistlik arvutada loodava joonise x-teljele
paigutatavast tunnusest (temperatuur) järgmisesse veergu
(vaikimisi eeldab Excel, et mulldiagrammi aluseks olevad
andmed paiknevad kõrvuti veergudes, esmalt x-teljele
ja selle järel y-teljele paigutatavad väärtused
ning kolmanda veeruna mullide suurust määravad väärtused;
muidugi saab kõigi nende väärtuste paiknemist
Excelile ka eraldi ette anda
):
Tulemus:
Saadud
joonisele võiks koheselt anda ka vähe sobivama
väljanägemise,
- määrates
x-telje ulatuseks väärtused -35 kuni 25 ning y-telje
ristimiskohaks punkti -35;
- y-telje
ulatuseks 0 kuni 1,1 ning väärtuste esituseks
komakohtadeta protsendi;
- eemaldades
graafikult legendi ja ruudujooned (viimased võivad,
aga ei pruugi, pärssida joonisele kavandatud regressioonivõrrandi
graafiku ja sisuliselt oluliste joonte silma hakkamist);
- valides
mullide täiteks helehalli poolläbipaistva värvi
(et oleks näha ka üksteise alla jäävad
sümbolid) ja värvides mullide piirjooned tumehallideks
(et mullid paremini eristuksid, juhtimata siiski tähelepanu
liigselt kõrvale joonisele kavandatud musta värvi
regressioonivõrrandi graafikust).
Tulemus:
PS. Kuna
Excel lähtub mullide üksteise peale joonistamisel
väärtuste järjekorrast andmetabelis, võib
mõnikord aidata väiksemaid mulle suuremate peale
joonistada (et nad paremini näha oleksid) andmetabeli
sorteerimine mullide suurust määrava veeru järgi
(ning seda kindlasti suurematest väärtuste väiksemateni!):
PPS. Kui
graafikul kuvatavad mullid on liiga suured, saab nende suhtelist
suurust vähendada (ja vajadusel ka suurendada) muutes
mullide suuruse skaalat (vaikimisi 100%). Mitme joonisel kuvatud
andmeseeria korral kehtib määratud skaala kõigi
sama telje suhtes joonistatud andmeseeriate jaoks (aga mitte
teise telje suhtes joonistatute jaoks!).
2)
Regressioonivõrrandi graafiku tarvis tuleb Exceli
töölehele teha abitabel, kus esimeses veerus paiknevad
argumendi (x-teljel kuvatava tunnuse) väärtused
ning selle järel võrrandist leitud prognoosid.
Kuna mulldiagrammi
puhul ei ole võimalik lisada graafikule joont punkt-
või joondiagrammi kujul, tuleb joon moodustada mullidest.
Selleks tuleb aga prognoosid arvutada tunduvalt väiksema
vahega kui punktdiagrammi puhul, antud juhul näiteks
iga 0,05°C järel (sageli ei pruugi esimesel korral
õnnestuda õige pikkusega sammu valik ning prognoose
tuleb mitu korda ümber arvutada).
Lisaks
tuleb abitabelisse lisada veerg regressioonivõrrandi
graafiku moodustavate mullide suurustest - et sooviks on saada
võimalikult joone sarnast mullide rida, peaks mullide
suurus olema mingi väga väike arv (sõltub
ka gruppide suurusest algandmetes), antud juhul näiteks
0,1.
Lahendatavas
näiteülesandes prognoositi kahjurite surevust loomulikku,
plusskraadide juures ilmnenud, surevust arvestava logistilise
regressioonimudeliga kujul
Surevus
= c + (1 - c) × 1 / [1 + exp(-a
- b×Temp)].
Abitabel
koos Exceli töölehele sisestatud mudeli parameetrite
hinnangutega võiks välja näha järgmine:
3)
Loodud abitabeli alusel joonisele lisatud uus andmeseeria
esitubki soovitud joonena:
Et regressioonivõrrandi
graafik kontrastsemalt esile tuleks, võib lasta Excelil
värvida vastava andmeseeria mullide piirjooned mustaks.
Tulemus:
Kui lisada
joonisele ka veel telgede nimetused ja soovi korral ka regressioonivõrrand
(ning kaotada joonist ümbritsev joon), võibki
korrektse joonise valminuks lugeda.
4)
Soovides aga joonist veel informatiivsemaks muuta, tuleb näha
lisa vaeva.
- Mõnikord
aitab joonise selgusele kaasa väärtuste paiknemise
ala raamiga ümbritsemine. Kui lisada raam antud joonise
diagrammialale, tuleb see pisut ebakorrektne, sest raami
joonistab Excel telgede ulatuse järgi, y-telje
maksimum ei ole antud juhul aga mitte 100% vaid 110% (et
mullid ära mahuks) - samas on ju selge, et surevus
ei saa olla üle 100%.
Saamaks
diagrammiala ülalt piiravat joont 100% kohale, on lihtsaim
variant
-
nõuda regressioonivõrrandi graafiku joonistamist
teise y-telje järgi,
-
seejärel lasta Excelil lisada joonisele ka
teine x-telg ja määrata selle ulatus analoogseks
esimese x-telje ulatusega (-35 kuni 25),
-
määrata teise y-telje ulatus analoogseks esimese
y-telje ulatusega (0 kuni 1,1) ja määrata teise
x-telje ristumispunktiks väärtus 1 (100%),
-
lõpetuseks võib ära kaotada ühikud
ja märgendid teiselt x-teljelt ning ühikud teiselt
y-teljelt.
Tulemus:
- Märkimaks
joonisele ka 50% ja 90%-lisele surevusele vastavaid jooni
(toksikoloogias jm on küllalt levinud 50% ja 90%-lisele
surevusele vastava doosi/kontsentratsiooni/temperatuuri
- nö 50% või 90%-liselt letaalse väärtuse
- leidmine), tuleb sarnaselt regressioonivõrrandi
graafikuga konstrueerida abitabel, kandmaks joonisele visuaalselt
joone muljet jätvat mullide rivi.
Seejuures - mida vertikaalsem joon, seda väiksem peab
olema mullide vaheline kaugus selleks, et tulemus ikkagi
joonena näiks.
Loodud
abitabelite alusel ongi joonisele lisatavad kolm rivi mulle,
mis visuaalselt jätavad mulje joonest. Seejuures on
oluline
-
määrata neid nö abijooni moodustavate mullide
piirjoonteks hall värv (et abijooned ei hakkaks domineerima
joonisel tegelikult infot omavate algandmete mullide ja
regressioonivõrrandi graafiku üle),
-
käskida Excelil abijooned joonistada esmaste telgede
suhtes ja
-
tõsta vastavad andmeseeriad andmeseeriate loetelus
ettepoole algandmetele vastavast andmeseeriast:
Viimased
kaks tegevust on vajalikud seetõttu, et Excel
paigutab mulldiagrammil esmaste telgede suhtes joonistatud
andmeseeriad allpoole ja teiste telgede suhtes joonistatud
andmeseeriad pealepoole - seetõttu on joonisel regressioonivõrrandi
graafik (kui teise telje järgi joonistatu) mullide
(kui esimese telje järgi joonistatu) peal ja mitte
vastupidi. Abijooned peaksid oma olemuselt jääma
taustale, mistap tuleb need paigutada esmasele teljele ja
andmeseeriate järjekorras kõige ette.
Excel
2007-s ja 2010-s võib abijooned põhimõtteliselt
lisada ka joonistusvahendeid kasutades, aga siis ei ole
neid võimalik paigutada joonisel tegelikult infot
omavate andmeseeriate taha - kõik joonistusvahendeid
kasutades joonistatu paigutatakse kõige peale
Tulemus:
- Ja
lõpuks võib
- lisada
telgedele nimed,
-
kirjutada (näiteks tekstikaste kasutades) lisatud
abijoonte juurde, mis väärtustele need vastavad
(ja seda on hea teha teiste, ilma väärtustete
telgede juurde - hakkab paremini silma),
-
soovi korral katta valge ruuduga 100%-st pikalt üle
ulatuvad vertikaalsete telgede otsad ja
-
lisada joonisel regressioonivõrrand või
mõni muu näitaja (p-väärtus, LTemp50%,
).
Tulemus:
|