Õpiobjektid -> Andmeanalüüs MS Excelis (MS Excel 2010 baasil)

ANDMEANALÜÜS MS EXCELIS


Õpiobjekti kirjeldus
Õpijuhis
 
Sissejuhatus
 
Peamised andmeanalüüsi teostamise vahendid MS Excelis
Sagedustabelid
Arvkarakteristikud
Usalduspiirid
Hüpoteeside kontrollimine
(ühe ja kahe üldkogumi võrdlus)
Korrelatsioonanalüüs
Regressioonanalüüs
Kahemõõtmeline sagedustabel
Dispersioonanalüüs
Trikke ja nippe
Lisa
¤ Kogu materjal ühe pdf-failina: stat_excelis.pdf

Kahefaktoriline dispersioonanalüüs

Kahefaktoriline dispersioonanalüüs on Excelis teostatav üksnes tasakaaluliste andmete korral, st juhul, kui mõlema faktori kõigil tasemetel on sooritatud ühepalju mõõtmisi. Aga ka siis vaid ettemääratud mudeli kohaselt:

  • protseduur Anova: Two-Factor Without Replication eeldab, et mõlema faktori kõigi tasemete kõigi kombinatsioonide puhul on teostatud üksnes üks mõõtmine, ja testib sedasi vaid mõlema faktori peamõju statistilist olulisust;
     
  • protseduur Anova: Two-Factor With Replications eeldab, et mõlema faktori kõigi tasemete kõigil kombinatsioonidel on teostatud võrdne ja ühest suurem arv mõõtmiseid, ja testib mõlema faktori peamõju pluss nende koosmõju statistilist olulisust.

Seega sobivad Exceli kahefaktorilise dispersioonanalüüsi protseduurid vaid täpselt planeeritud ja läbi viidud väikesemahuliste katsete andmete analüüsimiseks.


Kahefaktoriline kordusteta dispersioonanalüüs

Kahefaktorilise kordusteta dispersioonanalüüsi teostamiseks Excelis tuleb (vt ka Joonis 68)

  1. esitada analüüsitavad andmed risttabelina, mis on jagatud ridadeks ühe ja veergudeks teise faktori tasemete alusel ning kus igas lahtris paikneb täpselt üks uuritava tunnuse väärtus,
     
  2. rakendada protseduuri Anova: Two-Factor Without Replication (Data-sakk -> Data Analysis), millele tuleb ette anda
  • sammul 1 loodud risttabel (Input Range),
  • infovõrreldavate gruppide nimede olemasolu kohta risttabeli esimeses reas ja veerus (st, et nimed peavad olemas olema kas mõlemat pidi või siis üldse puuduma; Labels),
  • olulisuse nivoo F-statistiku kriitilise väärtuse arvutamiseks (Alpha, vaikimisi 0,05),
  • tulemustabelite asukoht (Output options): samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).

Joonisel 68 on näidatud kahefaktorilise kordusteta dispersioonanalüüsi teostamist protseduuriga Anova: Two-Factor Without Replication, testimaks keskmise netopalga erinevust maakondade ja aastate 2010-2012 vahel (andmed Statistikaameti kodulehelt http://www.stat.ee).

Tulemuseks on kaks tabelit, millest esimene sisaldab nii andmebaasi ridu (antud näites maakondi) kui ka veerge (antud näites aastaid) kirjeldavaid karakteristikuid. Neist oluliseimad on aritmeetilised keskmised, mille alusel saab vaadata, millised grupid (aastad ja maakonnad) omavahel enam ja mis suunas erinevad. Antud juhul on tulemused muidugi loomulikud - suurima keskmise netopalgaga aastatel 2010-2012 on olnud Harju maakonna töötajad (keskmine netopalk aastatel 2010-2012 751,67 eurot), millele järgneb Tartu maakond (646,33 eurot), madalaim keskmine netopalk on olnud Valga maakonnas (518,67 eurot). Uuritud aastate lõikes on palk suurenenud - kui aastal 2009 oli keskmine netopalk 536,07 eurot, siis aastal 2012 juba 590,67 eurot (mitte et see nüüd mingi eriti suur arv oleks …).

Dispersioonanalüüsi (ANOVA) tabelis vastab rida Rows maakonna mõjule ja rida Columns aasta mõjule (sest just niipidi oli algandmete tabel üles ehitatud). Mõlema faktori mõju on statistiliselt oluline (p < 0,001).
 

Joonis 68. Kahefaktorilise kordusteta dispersioonanalüüsi teostamine protseduuriga Anova: Two-Factor Without Replication ja selle tulemused, testimaks keskmise netopalga erinevust maakondade ja aastate 2010-2012 vahel (andmed Statistikaameti kodulehelt http://www.stat.ee).
 


Kahefaktoriline kordustega dispersioonanalüüs

Kahefaktorilise kordustega dispersioonanalüüsi teostamiseks Excelis tuleb (vt ka Joonis 69)

  1. esitada analüüsitavad andmed risttabelina, mis on jagatud ridadeks ühe ja veergudeks teise faktori tasemete alusel ning kus igale faktorite tasemete kombinatsionile vastab sama arv nö korduvaid mõõtmisi, mis paiknevad eri ridades faktorite samade tasemete sees,
     
  2. rakendada protseduuri Anova: Two-Factor With Replications (Data-sakk -> Data Analysis), millele tuleb ette anda
  • sammul 1 loodud risttabel (Input Range),
  • mõõtmiste arv (kordsus) reafaktori taseme kohta (Rows per sample),
  • infovõrreldavate gruppide nimede olemasolu kohta risttabeli esimeses reas ja veerus (st, et nimed peavad olemas olema kas mõlemat pidi või siis üldse puuduma, seejuures võivad reafaktori tasemete nimed olla ka vaid iga taseme esimeses reas; Labels),
  • olulisuse nivoo F-statistiku kriitilise väärtuse arvutamiseks (Alpha, vaikimisi 0,05),
  • tulemustabelite asukoht (Output options): samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).

Joonisel 69 on näidatud kahefaktorilise kordustega dispersioonanalüüsi teostamist protseduuriga Anova: Two-Factor With Replications, testimaks keskmise netopalga sõltuvust tööandja (omaniku) liigist ja aastast (andmed Statistikaameti kodulehelt http://www.stat.ee).

Tulemusena väljastab Excel kirjeldavate statistikute tabelid nii rea- kui ka veerufaktori kõigi tasemete kohta. Antud juhul on näha, et kõrgeim keskmine netopalk on olnud välismaa eraõiguslikust isikust omaniku puhul (823,83 eurot), palju ei jää maha keskmine netopalk ka riigi omandusega ettevõtetes - 807,00 eurot. Madalaim keskmine netopalk aastatel 2010-2012 oli kohalike omavalitsuste omanduses - 553,58 eurot. Aastate lõikes on palk järjest tõusnud.

Teisest Exceli poolt väljastatud tabelist on näha, et statistiliselt oluline erinevus keskmistes netopalkades on nii omanike (reafaktor, Sample) kui ka aastate (veerufaktor, Columns) vahel (mõlemal juhul p < 0,001). Küll ei ole statistiliselt oluline omaniku ja aasta koosmõju (Interaction, p = 0,83), st et omanike vaheline erinevus on samasugune sõltumata aastast nagu on ka aastate vaheline erinevus samasugune sõltumata omanikust.
 

Joonis 69. Kahefaktorilise kordustega dispersioonanalüüsi teostamine protseduuriga Anova: Two-Factor With Replications ja selle tulemused, testimaks keskmise netopalga sõltuvust tööandja (omaniku) liigist ja aastast (andmed Statistikaameti kodulehelt http://www.stat.ee).

 


< Eelmine

Creative Commons License Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License