Õpiobjektid -> MS Excelile mitteomased andmeanalüüsil kasutatavad joonised

MS EXCELILE MITTEOMASED
ANDMEANALÜÜSIL KASUTATAVAD JOONISED


Õpiobjekti kirjeldus
Sissejuhatus
 
Jooniste valik
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤

Logistilise regressioonimudeli illustreerimine, variant 3
(mulldiagrammi baasil)

Mõnikord on tunnuste väärtused määratud mitte ükskindiviidide, vaid gruppide tasemel (näiteks ei pruugi olla fikseeritud iga looma haigestumus eraldi, vaid üksnes haigete loomade arv laudas). Kui grupid on erineva suurusega, võib üksnes gruppide keskmiste joonisel kujutamine anda visuaalselt ebakorrektse pildi. Üks võimalikke lahendusi on esitada igat gruppi märkiv punkt seda suuremana, mida suurem on grupp - Excelis on selleks otstarbeks kasutatav mulldiagramm …
 

Andmed.
Uuriti teatud viljades talvituvate kahjurite surevust sõltuvalt temperatuurist. Näiteandmestik sisaldab andmeid viljadest leitud kahjurite koguarvu ning neist surnud olnud isendite arvu kohta kuue erineva temperatuuri korral. Andmed võite katsetamiseks alla laadida siit:

kahjur2.xls.
 

Ülesanne.
Konstrueerida diagramm illustreerimaks logistilise regressiooni tulemusi ning erinevat kahjurite arvu erinevais viljades ja temperatuuridel, lisada graafikule ka jooned märkimaks 0-kraadist temperatuuri ning 50%-list ja 90%-list surevust:


 

Probleem.
Excel ei võimalda kombineerida mulldiagrammi teist tüüpi diagrammidega, seega ei ole võimalik lisada mulldiagrammile logistilise regressioonivõrrandi graafikut või siis kujutada logistilise regressionivõrrandi graafikul andmepunkte erineva suurusega. Excelile omased variandid on vaid järgmised:

või
 

Lahendus.
Lisada mulldiagrammile soovitavad lisajooned väga väikeste väga tihedalt paiknevate mullide reana.
 


 

Tööjuhend.

1) Esimese etapina tuleb arvutada joonisele kantavad surevusmäärad e surevused ning konstrueerida nende alusel mulldiagramm.

Seejuures on surevused mõistlik arvutada loodava joonise x-teljele paigutatavast tunnusest (temperatuur) järgmisesse veergu (vaikimisi eeldab Excel, et mulldiagrammi aluseks olevad andmed paiknevad kõrvuti veergudes, esmalt x-teljele ja selle järel y-teljele paigutatavad väärtused ning kolmanda veeruna mullide suurust määravad väärtused; muidugi saab kõigi nende väärtuste paiknemist Excelile ka eraldi ette anda …):


 

Tulemus:


 

Saadud joonisele võiks koheselt anda ka vähe sobivama väljanägemise,

  • määrates x-telje ulatuseks väärtused -35 kuni 25 ning y-telje ristimiskohaks punkti -35;
  • y-telje ulatuseks 0 kuni 1,1 ning väärtuste esituseks komakohtadeta protsendi;
  • eemaldades graafikult legendi ja ruudujooned (viimased võivad, aga ei pruugi, pärssida joonisele kavandatud regressioonivõrrandi graafiku ja sisuliselt oluliste joonte silma hakkamist);
  • valides mullide täiteks helehalli poolläbipaistva värvi (et oleks näha ka üksteise alla jäävad sümbolid) ja värvides mullide piirjooned tumehallideks (et mullid paremini eristuksid, juhtimata siiski tähelepanu liigselt kõrvale joonisele kavandatud musta värvi regressioonivõrrandi graafikust).
     

Tulemus:


 

PS. Kuna Excel lähtub mullide üksteise peale joonistamisel väärtuste järjekorrast andmetabelis, võib mõnikord aidata väiksemaid mulle suuremate peale joonistada (et nad paremini näha oleksid) andmetabeli sorteerimine mullide suurust määrava veeru järgi (ning seda kindlasti suurematest väärtuste väiksemateni!):


 

PPS. Kui graafikul kuvatavad mullid on liiga suured, saab nende suhtelist suurust vähendada (ja vajadusel ka suurendada) muutes mullide suuruse skaalat (vaikimisi 100%). Mitme joonisel kuvatud andmeseeria korral kehtib määratud skaala kõigi sama telje suhtes joonistatud andmeseeriate jaoks (aga mitte teise telje suhtes joonistatute jaoks!).


 

2) Regressioonivõrrandi graafiku tarvis tuleb Exceli töölehele teha abitabel, kus esimeses veerus paiknevad argumendi (x-teljel kuvatava tunnuse) väärtused ning selle järel võrrandist leitud prognoosid.

Kuna mulldiagrammi puhul ei ole võimalik lisada graafikule joont punkt- või joondiagrammi kujul, tuleb joon moodustada mullidest. Selleks tuleb aga prognoosid arvutada tunduvalt väiksema vahega kui punktdiagrammi puhul, antud juhul näiteks iga 0,05°C järel (sageli ei pruugi esimesel korral õnnestuda õige pikkusega sammu valik ning prognoose tuleb mitu korda ümber arvutada).

Lisaks tuleb abitabelisse lisada veerg regressioonivõrrandi graafiku moodustavate mullide suurustest - et sooviks on saada võimalikult joone sarnast mullide rida, peaks mullide suurus olema mingi väga väike arv (sõltub ka gruppide suurusest algandmetes), antud juhul näiteks 0,1.

Lahendatavas näiteülesandes prognoositi kahjurite surevust loomulikku, plusskraadide juures ilmnenud, surevust arvestava logistilise regressioonimudeliga kujul

Surevus = c + (1 - c) × 1 / [1 + exp(-a - b×Temp)].

Abitabel koos Exceli töölehele sisestatud mudeli parameetrite hinnangutega võiks välja näha järgmine:


 

3) Loodud abitabeli alusel joonisele lisatud uus andmeseeria esitubki soovitud joonena:

Et regressioonivõrrandi graafik kontrastsemalt esile tuleks, võib lasta Excelil värvida vastava andmeseeria mullide piirjooned mustaks. Tulemus:

Kui lisada joonisele ka veel telgede nimetused ja soovi korral ka regressioonivõrrand (ning kaotada joonist ümbritsev joon), võibki korrektse joonise valminuks lugeda.
 

4) Soovides aga joonist veel informatiivsemaks muuta, tuleb näha lisa vaeva.

  • Mõnikord aitab joonise selgusele kaasa väärtuste paiknemise ala raamiga ümbritsemine. Kui lisada raam antud joonise diagrammialale, tuleb see pisut ebakorrektne, sest raami joonistab Excel telgede ulatuse järgi, y-telje maksimum ei ole antud juhul aga mitte 100% vaid 110% (et mullid ära mahuks) - samas on ju selge, et surevus ei saa olla üle 100%.

Saamaks diagrammiala ülalt piiravat joont 100% kohale, on lihtsaim variant

    • nõuda regressioonivõrrandi graafiku joonistamist teise y-telje järgi,
    • seejärel lasta Excelil lisada joonisele ka teine x-telg ja määrata selle ulatus analoogseks esimese x-telje ulatusega (-35 kuni 25),
    • määrata teise y-telje ulatus analoogseks esimese y-telje ulatusega (0 kuni 1,1) ja määrata teise x-telje ristumispunktiks väärtus 1 (100%),
    • lõpetuseks võib ära kaotada ühikud ja märgendid teiselt x-teljelt ning ühikud teiselt y-teljelt.

Tulemus:

  • Märkimaks joonisele ka 50% ja 90%-lisele surevusele vastavaid jooni (toksikoloogias jm on küllalt levinud 50% ja 90%-lisele surevusele vastava doosi/kontsentratsiooni/temperatuuri - nö 50% või 90%-liselt letaalse väärtuse - leidmine), tuleb sarnaselt regressioonivõrrandi graafikuga konstrueerida abitabel, kandmaks joonisele visuaalselt joone muljet jätvat mullide rivi.
    Seejuures - mida vertikaalsem joon, seda väiksem peab olema mullide vaheline kaugus selleks, et tulemus ikkagi joonena näiks.

Loodud abitabelite alusel ongi joonisele lisatavad kolm rivi mulle, mis visuaalselt jätavad mulje joonest. Seejuures on oluline

    • määrata neid nö abijooni moodustavate mullide piirjoonteks hall värv (et abijooned ei hakkaks domineerima joonisel tegelikult infot omavate algandmete mullide ja regressioonivõrrandi graafiku üle),
    • käskida Excelil abijooned joonistada esmaste telgede suhtes ja
    • tõsta vastavad andmeseeriad andmeseeriate loetelus ettepoole algandmetele vastavast andmeseeriast:

Viimased kaks tegevust on vajalikud seetõttu, et Excel paigutab mulldiagrammil esmaste telgede suhtes joonistatud andmeseeriad allpoole ja teiste telgede suhtes joonistatud andmeseeriad pealepoole - seetõttu on joonisel regressioonivõrrandi graafik (kui teise telje järgi joonistatu) mullide (kui esimese telje järgi joonistatu) peal ja mitte vastupidi. Abijooned peaksid oma olemuselt jääma taustale, mistap tuleb need paigutada esmasele teljele ja andmeseeriate järjekorras kõige ette.

Excel 2007-s ja 2010-s võib abijooned põhimõtteliselt lisada ka joonistusvahendeid kasutades, aga siis ei ole neid võimalik paigutada joonisel tegelikult infot omavate andmeseeriate taha - kõik joonistusvahendeid kasutades joonistatu paigutatakse kõige peale …

Tulemus:

  • Ja lõpuks võib
     
    • lisada telgedele nimed,
    • kirjutada (näiteks tekstikaste kasutades) lisatud abijoonte juurde, mis väärtustele need vastavad (ja seda on hea teha teiste, ilma väärtustete telgede juurde - hakkab paremini silma),
    • soovi korral katta valge ruuduga 100%-st pikalt üle ulatuvad vertikaalsete telgede otsad ja
    • lisada joonisel regressioonivõrrand või mõni muu näitaja (p-väärtus, LTemp50%, …).
       

Tulemus:


 


< Eelmine

Creative Commons License Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License