Õpiobjektid -> Andmeanalüüs MS Excelis (MS Excel 2010 baasil)

ANDMEANALÜÜS MS EXCELIS


Õpiobjekti kirjeldus
Õpijuhis
 
Sissejuhatus
 
Peamised andmeanalüüsi teostamise vahendid MS Excelis
Sagedustabelid
Arvkarakteristikud
Usalduspiirid
Hüpoteeside kontrollimine
(ühe ja kahe üldkogumi võrdlus)
Korrelatsioonanalüüs
Regressioonanalüüs
Kahemõõtmeline sagedustabel
Dispersioonanalüüs
Trikke ja nippe
Lisa
¤ Kogu materjal ühe pdf-failina: stat_excelis.pdf

Lineaarne regressioonanalüüs protseduuriga Regression

Kõige põhjalikuma väljundi lineaarse regressioonanalüüsi tulemustest annab protseduur Regression (Data-sakk -> Data Analysis).

Protseduuri Regression sisestusaknas tuleb määrata:

  • Input Y Range - funktsioontunnuse andmete blokk,
  • Input X Range - argumenttunnus(t)e andmete blokk (protseduur Regression võimaldab teostada ka mitme argumenttunnusega regressioonanalüüsi),
  • Labels - märgitakse nimede või tähiste olemasolu korral tunnuste blokkide esimeses reas,
  • Constant is Zero - märgitakse, kui tahetakse kontrollida tunnuste vahelist võrdelist sõltuvust (nõutakse, et x = 0 korral ka y = 0, st regressioonivõrrandi vabaliige a = 0),
  • Confidence Level - usaldusnivoo parameetrite (1-α)-usalduspiiride arvutamiseks, vaikimisi väärtus 95%,
  • Output options - määratakse tulemuste väljastamise asukoht: samale töölehele (Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New Workbook).

Nende argumentide alusel teostatud regressioonanalüüsi väljund koosneb kolmest tabelist: regressioonimudeli headuse karakteristikud, regressioonivõrrandi dispersioonanalüüs ja regressioonivõrrandi parameetrite hinnangud (Joonis 50).

Täiendavate valikutena võib tellida ka

  • prognoosijäägid (Residuals),
  • standardiseeritud prognoosijäägid (Standardizised Residuals),
  • prognoosijääkide ja argumenttunnuse hajuvusdiagrammi (Residuals Plot),
  • funktsioontunnuse ja prognooside graafiku argumenttunnuse suhtes (Line Fit Plot),
  • funktsioontunnuse väärtuste ja empiiriliste kvantiilide punktdiagrammi punktdiagrammi e tõenäosuspaberi (Normal Probability Plot).

NB!
Mitmese regressiooni korral peavad argumenttunnused paiknema üksteise kõrval, et neid saaks ette anda ühe pideva andmeblokina.
Samuti eeldab protseduur Regression, et ette antud funktsioon- ja argumenttunnuste väärtuste blokid ei sisalda puuduvaid väärtuseid, vastasel korral lõpeb protseduuri rakendamine veateatega.
 

Joonisel 50 on kujutatud noormeeste kehamassi prognoosimine nende pikkuse alusel lineaarse regressioonivõrrandiga.

Esimeses väljundtabelis toodud tulemustest nähtub, et

  • tegelike ja prognoositud kehamasside vahel on keskmise tugevusega seos - mitmene korrelatsioonikordaja (Multiple R), mis ongi uuritava tunnuse ja tema prognoositud väärtuste vaheline lineaarne korrelatsioonikordaja, R = 0,458,
  • sobitatud mudel kirjeldab ära 21,0% noormeeste kehamasside tegelikust varieeruvusest - determinatsioonikordaja (R Square) R2 = 0,21,
  • keskmiselt osutub prognoositud kehamass valeks 13,1 kg võrra - mudeli standarviga (Standard Error), mis arvutatakse kui prognoosijääkide standardhälve, on 13,1.

Teises tabelis toodud tulemustest nähtub, et kuigi noormeeste kehamassi prognoos nende pikkuse järgi ei ole eriti täpne, on leitud regressioonivõrrand tervikuna siiski statistiliselt oluline (p < 0,001; veerg Significance F). St, et kasutades noormeeste kehamassi prognoosimiseks lineaarset funktsiooni nende pikkusest on tulemus statistiliselt oluliselt täpsem võrreldes tõdemusega, et kõik noormehed kaaluvad keskmiselt ühepalju.

Väljundi kolmandas tabelis on toodud regressioonivõrrandi kordajate hinnangud (veerus Coefficients), nende standardvead (Standard Error; näitavad, kui palju keskmiselt võib kordajate hinnang varieeruda), p-väärtused (P-value; testitakse hüpoteesi kordaja erinevusest nullist) ja 95%-lised usalduspiirid (Lower 95% ja Upper 95%).

Noormeeste kehamassi prognoosimisel kasutatav regressionivõrrand on vastavalt kordajate hinnangutele kirja pandav kujul

Kehamass = -97,0 + 0,978*Pikkus.

  • Sellest võrrandist tuleneb, et pikkuse suurenemisega 1 cm võrra suureneb keskmiselt ka noormeest kehamass 1 kg (täpsemelt 0,978 kg) võrra.
  • Samuti saab arvutada, et 180 cm pikkune esimese kursuse noormees peaks hinnanguliselt kaaluma -97,0 + 0,978*180 = 79,1 kg.

Märkus. See, et võrrandi vabaliikmele vastav p-väärtus väljundi kolmandas tabelis on suurem kui 0,05 (p = 0,059), antud juhul ohu märk ei ole. Juhul, kui argumenttunnus ei saa reaalselt omandada väärtust 0 (ja tudeng ei saa kaaluda 0 kg), ei ole regressioonivõrrandi vabaliikmel sisulist tähendust, tegu on lihtsalt matemaatilise prognoosivõrrandi loomuliku osaga, mille kohta hüpoteeside testimine on mõttetu.
 

Joonis 50. Noormeeste kehamassi prognoosimine nende pikkuse alusel - protseduuri Regression tellimisaken ja vaikimisi väljastatavad tulemused.
 

Joonistel 51 ja 52 on kujutatud protseduuri Regression lisavalikute tulemusena väljastatud tabelid ja joonised.

  • Ükskõik milline lisavalikutest Residuals, Residual Plots või Line Fit Plots annab tulemuseks väljundtabeli, milles on üks rida iga andmetabeli rea tarvis ning selles on kirjas vaatluse järjekorranumber (Observations), prognoositud väärtus (Predicted …) ja prognoosijääk (Residuals). Prognoosijääk on seejuures arvutatud kui tegelik väärtus miinus prognoositud väärtus.
  • Lisavalik Standardizised Residuals lisab prognoositud väärtuste ja prognoosijääkide tabelile täiendava, standardiseeritud jääkide veeru.
  • Lisavalik Normal Probability Plot lisab väljundile tabeli, mis sisaldab kasvavalt sorteeritult kõiki uuritava tunnuse väärtuseid ja neile vastavaid protsendipunkte (emiirilisi kvantiile).

Joonistest annab

  • lisavalik Residual Plots tulemuseks prognoosijääkide ja argumenttunnuse hajuvusdiagrammi - kui regressioonivõrrand on sobiv, peaksid punktid sellel graafikul paiknema juhuslikult, ühtlaselt hajutatud punktiparvena,
  • Line Fit Plots funktsioon- ja argumenttunnuse hajuvusdiagrammi, kuhu on täiendava andmeseeriana kantud prognoositud väärtused,
  • Normal Probability Plot funktsioontunnuse väärtuste ja empiiriliste kvantiilide punktdiagrammi e tõenäosuspaberi - kui funktsioontunnus on normaaljaotusega, peaksid punktid sellel diagrammil paiknema diagonaalsel sirgel.

NB! Mitmese regressioonanalüüsi puhul konstrueerib Excel valiku Residual Plots tulemusena eraldi iga argumenttunnuse ja prognoosijääkide hajuvusdiagrammid, valiku Line Fit Plots tulemusena aga eraldi iga argumenttunnuse ja prognoositud väärtuste hajuvusdiagrammid.

Et protseduuri Regression lisavalikute tulemusena saadud tabelid on üsna mahukad ja joonised vajavad üksjagu lisatööd viimaks neid kasutatavale kujule, on neid mõtet tellida üksnes siis, kui tõepoolest on plaanis regressioonivõrrandi põhjalikum diagnostika.
 

Joonis 51. Noormeeste kehamassi prognoosimine nende pikkuse alusel - protseduuri Regression lisatulemused.
 

Joonis 52. Protseduuri Regression poolt väljastatavad diagrammid (vasakul pool) ning nende sobivamale kujule viidud variandid (paremal pool).

 


< Eelmine

Creative Commons License Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License