Andmeanalüüs MS Exceli abil


Korrelatsioonanalüüs


 


  
Funktsioon CORREL(array1,array2)

Lihtsaim viis pidevate arvtunnuste vahelise lineaarse seose iseloomustamiseks on korrelatsioonanalüüs.

Lineaarne korrelatsioonikordaja on MS Exceli keskkonnas leitav funktsiooniga CORREL(array1,array2), kus array1 ja array2 on vastavalt esimene ja teine andmeblokk.

Tulemusena väljastatakse eelnevalt valitud lahtrisse korrelatsioonikordaja r väärtus, mis antud juhul (tudengite pikkuste ja kaalude analüüsil) on 0,9065.
  


Üles


  
Protseduur Correlation

Mitme tunnuse korral on paarikaupa korrelatsioonikordajate tabeli (korrelatsiooni-
maatriksi) arvutamiseks kasutatav protseduur Correlation (Tools -> Data Analysis).

Avanevas sisestusaknas tuleb määrata:
  Input Range - algandmete blokk (tunnused peavad paiknema järjestikustes veergudes);
  Grouped by - määratakse, kas tunnusvektorid on orienteeritud veerge pidi
(Columns) või ridu pidi (Rows);
  Labels in First Row - märgitakse nimede või tähiste olemasolu korral tunnuste bloki esimeses reas;
  Output options - määratakse tulemuste väljastamise asukoht: samale töölehele
(Output Range), uuele töölehele (New Worksheet Ply) või uude faili (New
Workbook
).

Tulemuseks on Exceli töölehele väljastatav kolmnurkse kujuga korrelatsioonikordajate maatriks:

  Pikkus Kaal Mat.hinne
Pikkus 1
Kaal 0.90652 1
Mat.hinne -0.16377 -0.223 1

    

Üles


  
Korrelatsioonikordajaga kirjeldatava lineaarse seose statistiline olulisus

Korrelatsioonikordaja statistilise olulisuse kontrollimine seisneb hüpoteeside paari       H0: r = 0; H1: r ¹ 0; 
kontrollimises.
Kahjuks ei väljasta Excel korrelatsioonanalüüsi läbi viies automaatselt taoliste hüpoteeside kontrollimiseks vajalikke näitajaid (korrelatsioonikordaja või teststatistiku kriitilist väärtust või olulisustõenäosust p). Lahendusena võib kõne alla tulla vähemalt kolm varianti.

  • Esiteks võib kasutada korrelatsioonikordajate kriitiliste väärtuste tabelit, mis on leitav enamuse statistikaõpikute lisades -- kui teie andmetel leitud korrelatsioonikordaja r väärtus on suurem vastavast kriitilisest väärtusest rkr (viimane sõltub kordaja arvutamisel kasutatud väärtustepaaride arvust n ja olulisusnivoost a), võite lugeda tõestatuks hüpoteesi korrelatsioonikordaja nullist erinevuse osas (seose olemasolu), vastasel juhul olete sunnitud jääma nullhüpoteesi juurde.
  • Teine võimalus uuritava lineaarse seose statistilise olulisuse kontrollimiseks on teostada kahe uuritava tunnusega tavaline lineaarne regressioon protseduuri Regression abil. Lineaarse regressiooniseose statistilist olulisust iseloomustav olulisuse tõenäosus p kehtib ka lineaarse korrelatsioonikordaja jaoks (täpsemalt regressioonanalüüsi teostamisest Exceliga vt järgmisest peatükist).
  • Kolmas võimalus on leida olulisuse tõenäosuse p väärtus tuginedes ülaltoodud hüpoteeside kontrollimisel arvutatavale teststatistikule
    t = r Ö(n-2) / Ö(1-r2), mis on nullhüpoteesi kehtides t-jaotusega parameetriga n-2. Olulisustõenäosuse arvutamiseks on kasutatav Exceli funktsioon TDIST(t;n-2;2), kus esimesena argumendina tuleb ette anda eelnevalt toodud teststatistiku t väärtus.
    Kui p < 0,05, võime lugeda kahe tunnuse vahelise seose statistiliselt oluliseks

Üles


 

ktanel@eau.ee
http://ph.eau.ee/~ktanel/kool_ja_too/
nov, 2003