Lineaarne
regressioonanalüüs protseduuriga Regression
Kõige
põhjalikuma väljundi lineaarse regressioonanalüüsi
tulemustest annab protseduur Regression (Data-sakk
-> Data Analysis).
Protseduuri
Regression sisestusaknas tuleb määrata:
- Input
Y Range - funktsioontunnuse andmete blokk,
- Input
X Range - argumenttunnus(t)e andmete blokk (protseduur
Regression võimaldab teostada ka mitme
argumenttunnusega regressioonanalüüsi),
- Labels
- märgitakse nimede või tähiste
olemasolu korral tunnuste blokkide esimeses reas,
- Constant
is Zero - märgitakse, kui tahetakse kontrollida
tunnuste vahelist võrdelist sõltuvust
(nõutakse, et x = 0 korral ka y
= 0, st regressioonivõrrandi vabaliige a
= 0),
- Confidence
Level - usaldusnivoo parameetrite (1-α)-usalduspiiride
arvutamiseks, vaikimisi väärtus 95%,
- Output
options - määratakse tulemuste väljastamise
asukoht: samale töölehele (Output Range),
uuele töölehele (New Worksheet Ply)
või uude faili (New Workbook).
Nende
argumentide alusel teostatud regressioonanalüüsi
väljund koosneb kolmest tabelist: regressioonimudeli
headuse karakteristikud, regressioonivõrrandi
dispersioonanalüüs ja regressioonivõrrandi
parameetrite hinnangud (Joonis 50).
Täiendavate
valikutena võib tellida ka
- prognoosijäägid
(Residuals),
- standardiseeritud
prognoosijäägid (Standardizised Residuals),
- prognoosijääkide
ja argumenttunnuse hajuvusdiagrammi (Residuals
Plot),
- funktsioontunnuse
ja prognooside graafiku argumenttunnuse suhtes (Line
Fit Plot),
- funktsioontunnuse
väärtuste ja empiiriliste kvantiilide
punktdiagrammi punktdiagrammi e tõenäosuspaberi
(Normal Probability Plot).
NB!
Mitmese regressiooni korral peavad argumenttunnused
paiknema üksteise kõrval, et neid saaks
ette anda ühe pideva andmeblokina.
Samuti eeldab protseduur Regression, et ette
antud funktsioon- ja argumenttunnuste väärtuste
blokid ei sisalda puuduvaid väärtuseid,
vastasel korral lõpeb protseduuri rakendamine
veateatega.
Joonisel
50 on kujutatud noormeeste kehamassi prognoosimine
nende pikkuse alusel lineaarse regressioonivõrrandiga.
Esimeses
väljundtabelis toodud tulemustest nähtub,
et
- tegelike
ja prognoositud kehamasside vahel on keskmise tugevusega
seos - mitmene korrelatsioonikordaja (Multiple
R), mis ongi uuritava tunnuse ja tema prognoositud
väärtuste vaheline lineaarne korrelatsioonikordaja,
R = 0,458,
- sobitatud
mudel kirjeldab ära 21,0% noormeeste kehamasside
tegelikust varieeruvusest - determinatsioonikordaja
(R Square) R2 = 0,21,
- keskmiselt
osutub prognoositud kehamass valeks 13,1 kg võrra
- mudeli standarviga (Standard Error), mis
arvutatakse kui prognoosijääkide standardhälve,
on 13,1.
Teises
tabelis toodud tulemustest nähtub, et kuigi noormeeste
kehamassi prognoos nende pikkuse järgi ei ole
eriti täpne, on leitud regressioonivõrrand
tervikuna siiski statistiliselt oluline (p
< 0,001; veerg Significance F). St, et kasutades
noormeeste kehamassi prognoosimiseks lineaarset funktsiooni
nende pikkusest on tulemus statistiliselt oluliselt
täpsem võrreldes tõdemusega, et
kõik noormehed kaaluvad keskmiselt ühepalju.
Väljundi
kolmandas tabelis on toodud regressioonivõrrandi
kordajate hinnangud (veerus Coefficients),
nende standardvead (Standard Error; näitavad,
kui palju keskmiselt võib kordajate hinnang
varieeruda), p-väärtused (P-value;
testitakse hüpoteesi kordaja erinevusest nullist)
ja 95%-lised usalduspiirid (Lower 95% ja Upper
95%).
Noormeeste
kehamassi prognoosimisel kasutatav regressionivõrrand
on vastavalt kordajate hinnangutele kirja pandav kujul
Kehamass
= -97,0 + 0,978*Pikkus.
- Sellest
võrrandist tuleneb, et pikkuse suurenemisega
1 cm võrra suureneb keskmiselt ka noormeest
kehamass 1 kg (täpsemelt 0,978 kg) võrra.
- Samuti
saab arvutada, et 180 cm pikkune esimese kursuse
noormees peaks hinnanguliselt kaaluma -97,0 + 0,978*180
= 79,1 kg.
Märkus.
See, et võrrandi vabaliikmele vastav p-väärtus
väljundi kolmandas tabelis on suurem kui 0,05
(p = 0,059), antud juhul ohu märk ei ole.
Juhul, kui argumenttunnus ei saa reaalselt omandada
väärtust 0 (ja tudeng ei saa kaaluda 0 kg),
ei ole regressioonivõrrandi vabaliikmel sisulist
tähendust, tegu on lihtsalt matemaatilise prognoosivõrrandi
loomuliku osaga, mille kohta hüpoteeside testimine
on mõttetu.
Joonis
50. Noormeeste kehamassi prognoosimine nende pikkuse
alusel - protseduuri Regression tellimisaken ja vaikimisi
väljastatavad tulemused.
Joonistel
51 ja 52 on kujutatud protseduuri Regression
lisavalikute tulemusena väljastatud tabelid ja
joonised.
- Ükskõik
milline lisavalikutest Residuals, Residual
Plots või Line Fit Plots annab
tulemuseks väljundtabeli, milles on üks
rida iga andmetabeli rea tarvis ning selles on kirjas
vaatluse järjekorranumber (Observations),
prognoositud väärtus (Predicted
)
ja prognoosijääk (Residuals). Prognoosijääk
on seejuures arvutatud kui tegelik väärtus
miinus prognoositud väärtus.
- Lisavalik
Standardizised Residuals lisab prognoositud
väärtuste ja prognoosijääkide
tabelile täiendava, standardiseeritud jääkide
veeru.
- Lisavalik
Normal Probability Plot lisab väljundile
tabeli, mis sisaldab kasvavalt sorteeritult kõiki
uuritava tunnuse väärtuseid ja neile vastavaid
protsendipunkte (emiirilisi kvantiile).
Joonistest
annab
- lisavalik
Residual Plots tulemuseks prognoosijääkide
ja argumenttunnuse hajuvusdiagrammi - kui regressioonivõrrand
on sobiv, peaksid punktid sellel graafikul paiknema
juhuslikult, ühtlaselt hajutatud punktiparvena,
- Line
Fit Plots funktsioon- ja argumenttunnuse hajuvusdiagrammi,
kuhu on täiendava andmeseeriana kantud prognoositud
väärtused,
- Normal
Probability Plot funktsioontunnuse väärtuste
ja empiiriliste kvantiilide punktdiagrammi e tõenäosuspaberi
- kui funktsioontunnus on normaaljaotusega, peaksid
punktid sellel diagrammil paiknema diagonaalsel
sirgel.
NB!
Mitmese regressioonanalüüsi puhul konstrueerib
Excel valiku Residual Plots tulemusena eraldi
iga argumenttunnuse ja prognoosijääkide
hajuvusdiagrammid, valiku Line Fit Plots tulemusena
aga eraldi iga argumenttunnuse ja prognoositud väärtuste
hajuvusdiagrammid.
Et
protseduuri Regression lisavalikute tulemusena
saadud tabelid on üsna mahukad ja joonised vajavad
üksjagu lisatööd viimaks neid kasutatavale
kujule, on neid mõtet tellida üksnes siis,
kui tõepoolest on plaanis regressioonivõrrandi
põhjalikum diagnostika.
Joonis
51. Noormeeste kehamassi prognoosimine nende pikkuse
alusel - protseduuri Regression lisatulemused.
Joonis
52. Protseduuri Regression poolt väljastatavad
diagrammid (vasakul pool) ning nende sobivamale kujule
viidud variandid (paremal pool).
|