Õpiobjektid -> MS Excelile mitteomased andmeanalüüsil kasutatavad joonised

MS EXCELILE MITTEOMASED
ANDMEANALÜÜSIL KASUTATAVAD JOONISED


Õpiobjekti kirjeldus
Sissejuhatus
 
Jooniste valik
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤
¤

Karp-vurrud diagramm, variant 2
(erinditega)

Andmed.
Näiteandmestik sisaldab 68 neljast erinevast farmist pärit vasika sünnimasse; andmed võite katsetamiseks alla laadida siit:

vasikas.xls.
 

Ülesanne.
Konstrueerida karp-vurrud diagrammid vasikate sünnimassidele farmide kaupa, esitades erandlikud väärtused eraldi punktidena.


 

Probleem.
Exceli joonisetüüpide hulgas antud diagrammi ei ole.
 

Lahendus.

  • Arvutada farmide kaupa mediaan ja kvartiilid,
  • tekitada abitabel erandlikest väärtustest (jällegi farmide kaupa),
  • leida mediaanide-kvartiilide tabelisse lisaks minimaalsed ja maksimaalsed väärtused, jättes kõrvale erinditeks loetud väärtused,
  • konstrueerida mediaanide-kvartiilide tabeli alusel abitabel joonisel esitatavate andmetega,
  • joonistada tulpdiagramm,
  • modifitseerida viimast, saamaks joonisele karp-vurrud diagrammi väljanägemist,
  • lisada joonisele punktidena erandlikud väärtused.
     


 

Tööjuhend.

1) Esimese sammuna tuleb konstrueerida abitabel ning arvutada sinna farmide kaupa alumised ja ülemised kvartiilid ja mediaanid.

Selleks tuleks andmestik sorteerida farmi järgi ning rakendada arvkarakteristikute arvutamiseks vastavaid funktsioone (kõik kolm joonise tegemiseks vajalikku suurust on leitavad näiteks funktsiooniga QUARTILE.INC (vanemais Exceli versioonides funktsioon QUARTILE), mille teise argumendi väärtus määrab ära arvutatava suuruse: 1 alumisele kvartiilile, 2 mediaanile jne).


 

2) Järgmise sammuna tuleb iga farmi tarvis leida piirid erandlike väärtuste tarvis (mis arvust alates lugeda sünnimass erandlikuks).

Küllaltki standardne variant (mida näiteks statistikapakett R vaikimisi rakendab) on lugeda erandlikeks alumisest/ülemisest kvartiilist enam kui 1,5-kordse kvartiilide vahe võrra väiksemad/suuremad väärtused.

Piirid erandlike väärtuste tarvis võib esitada jällegi tabelina:

(tähistustes IQR - Inter Quartile Range (kvartiilide vahe), LQ - Lower Quartile (alumine kvartiil), UQ - Upper Quartile (ülemine kvartiil)).
 

3) Erandlikest väärtustest lisatabeli tegemiseks on mõttekas kasutada Exceli nn täpsemat filtrit (Advanced Filter), mis toimib analoogselt kuitahes suurte andmetabelite korral.

Algse andmetabeliga identsete veerunimedega abitabelisse (Advanced Filter'i argumenttabelisse) tuleb trükkida tingimused, millele vastavaid ridu algsest andmetabelist välja filtreerida soovitakse, seejuures tuleb tingimused, mis peavad korraga kehtima, trükkida ühte ritta, üksteise suhtes alternatiivsed tingimused (kas see või teine) tuleb trükkida eraldi ridadesse.
Näiteks paremal toodud abitabel käseb Excelil välja otsida kõik vasikad, kes on sündinud farmis A ja kelle sünnimass on suurem kui 36,25 kg pluss kõik vasikad, kes on sündinud farmis A ja kelle sünnimass on väiksem kui 34,25 kg.

 
Rakendades täpsemat filtrit, kopeerimaks lisatabelisse farmi A kuuluvaid erandlike sünnimassidega vasikaid, tuleb (vt ka järgnevat skeemi)

  • esmalt anda ette algtabel (või osa sellest), millest tingimustele vastavaid ridu otsida (koos pealkirjareaga!),
  • teisena anda ette filtreerimiskriteeriumeid sisaldava abitabeli asukoht (jälle koos pealkirjareaga!) ning
  • kolmandana käskida Excelil kopeerida välja filtreeritud tabeli read (koos pealkirjadega) uude tabelisse ja anda ette loodava tabeli vasaku ülemise nurga asukoht.

Pannes kirja filtreerimistingimused kõigi nelja farmi tarvis ning rakendades Advanced Filter't neli korda, on tulemuseks lisatabelid erandlikest väärtustest farmide kaupa:

 
Muidugi võib kõigi farmide erandlikud väärtused välja filtreerida ka korraga, andes filtreerimistingimused ette ühe tabelina:


 

4) Edasi tuleks lisada mediaanide-kvartiilide tabelisse minimaalsed ja maksimaalsed väärtused, jättes kõrvale erinditeks loetud väärtused.

Selleks võib tekitada abitabelid mitteerandlikest väärtustest, kasutades Advanced Filter'i abi (soovitatav hästi suure hulga erindite korral), ning leida minimaalsed ja maksimaalsed väärtused sealt.
Näiteks paremal toodud abitabel käseb Advanced Filter'l välja otsida kõik vasikad, kes on sündinud farmis A ja kelle sünnimass jääb lõiku [34,25 kg; 36,25 kg].

Kui erindeid on vähe, siis võib kokku lugeda, kui mitu neist on alumisest kvartiilist väiksemad, ning kasutada ülejäänud väärtustest vähima leidmiseks funktsiooni SMALL ning analoogselt mitteerandlikest väärtustest suurima leidmiseks funktsiooni LARGE.
Näiteks kui alumisest kvartiilist väiksemaid erindeid on kaks, siis väljastab ülejäänud väärtustest minimaalse väärtuse funktsioon SMALL teise argumendiga 3 (väiksemate väärtuste poolt kolmas väärtus algsest andmetabelist, sest kaks vähimat olid erandlikud).
Täiendades mediaanide-kvartiilide tabelit minimaalsete ja maksimaalsete väärtustega ilma erinditeta, on tulemus järgmine:


 

5) Järgmise sammuna tuleb leitud arvkarakteristikute tabeli alusel konstrueerida uus, Excelis loodavale tulpdiagrammile aluseks olev tabel:

Veerud uues tabelis on püütud nimetada vastavalt nendes olevate arvude rollile loodavas joonises. Seejuures (vt ka järgnevat joonist)

  • 'Series1' = 'Alumisne kvartiil' (need arvud vastavad esimese tulba kõrgusele tulpdiagrammil e karbi alumisele servale karp-vurrud diagrammil);
  • 'Series2' väärtused on arvutatud kui 'Mediaan - Alumine kvartiil' (see suurus määrab ära teise tulba kõrguse tulpdiagrammil e mediaanile vastava joone karp-vurrud diagrammil);
  • veerg 'Median line' ei ole ilmtingimata vajalik, vaja on seda siis, kui soovitakse esitada mediaanile vastavat joont graafikul paksemana, selle veeru väärtusteks peaks olema väga väikesed positiivsed arvud (näiteks 0,0001);
  • 'Series3' väärtused on arvutatud kui 'Ülemine kvartiil - Mediaan' (see suurus määrab ära kolmanda tulba kõrguse tulpdiagrammil e karbi ülemise serva karp-vurrud diagrammil);
  • 'Error bars1' väärtused on arvutatud kui 'Alumine kvartiil - Miinimum*' (selle suuruse alusel joonistatakse 'Series1'-le vastavale tulbale alumine veajoon, mis karp-vuurud diagrammi mõistes tähendab joont alumisest kvartiilist minimaalse väärtuseni);
  • 'Error bars2' väärtused on arvutatud kui 'Maksimum* - Ülemine kvartiil' (selle suuruse alusel joonistatakse 'Series3'-le vastavale tulbale ülemine veajoon, mis karp-vuurud diagrammi mõistes tähendab joont ülemisest kvartiilist maksimaalse väärtuseni).


     

6) Uue abitabeli veergude 'Series1'-'Series3' alusel tuleb konstrueerida tulpdiagramm, kus tabeli veerud vastaksid erinevatele andmeseeriatele
(vajadusel tuleb Exceli vaikimisi genereeritud joonisel read ja veerud ära vahetada).


 

7) Saadud joonisel tuleb (täpsemaid juhiseid võib vaadata tavalise karp-vurrud diagrammi konstrueerimise õpetusest)

  • lisada 'Series1' tulbale alumine veajoon veerus 'Error bars1' olevate väärtuste alusel ning 'Series3' tulbale ülemine veajoon veerus 'Error bars2' olevate väärtuste järgi;
  • kaotada ära nii sisu kui ka piirjooned 'Series1' tulbalt ning sisu 'Series2' ja 'Series3' tulpadelt (lisades vajadusel viimastele piirjooned).
  • Lisaks on soovitatav
    • esitada mediaanile vastav joon paksemana, värvides selleks vastava andmeseeria tulba piirjooned mustaks;
    • kaotada ära legend ja horisontaalsed ruudujooned,
    • lisada telgedele nimed,
    • vähendada tulpade (karp-vurrud diagrammide) vahelist kaugust (Gap Width), st et vähendada tühja ebainformatiivset ala joonisel,

    •  

Tulemus:


 

8) Joonisele erandlike väärtuste punktidena lisamiseks tuleb

  • esmalt tekitada erandlikest väärtustest ühine tabel (kui seda ei ole juba tehtud kõigi erandlike väärtuste korraga välja filtreerimise teel) ning
  • lisada tabelisse sünnimasside ette igale farmile oma arvuline kood, seejuures peavad arvulised koodid olema võrdsete vahedega (näiteks 1, 2, 3, 4 või 1, 3, 5, 7).

 
9)
Farmikoodide ja sünnimasside veerud tuleb lisada loodud joonisele uute andmeseeriatena. Lihtsaim viis selleks on

  • võtta vastavad veerud blokki ja kopeerida arvuti vahemällu,
  • seejärel klikkida joonisel ning kleepida käsu Paste Special abil joonisele kui uued andmeseeriad (vt joonist).


 

Tulemus:


 

10) Edasi tuleb Excelile öelda, et uute lisatud andmeseeriate alusel tuleb joonistada hoopis punktdiagramm:


 

Tulemus:


 

11) Viimase sammuna tuleb

  • määrata mõlemale vertikaalsele teljele sama ulatus (lähtudes minimaalsest ja maksimaalsest väärtusest - näiteks antud ülesande puhul võiks ulatuseks olla 27-40, sest minimaalne sünnimass on 28 kg ja maksimaalne 39 kg;
     
  • muuta teise horisontaaltelje skaalat nii, et selle alusel joonisele paigutatavad erindid satuksid erinevatele farmidele vastavate diagrammidega samale vertikaalsele joonele;


 

  • kaotada ära ühikud ja märgendid teiselt horisontaal- ja teiselt vertikaalteljelt ning muuta erindite tähistamiseks kasutatav sümbol sobivamaks.
     

Tulemus:



< Eelmine

Creative Commons License Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License