Pikaohjeita SPSS:lle
(Reunamo)
Muuttujien
määrittäminen ja aineiston syöttö
|
|
Hyviä käytännön oppaita SPSS:n käyttöön on esimerkiksi Pallant, J. (2007) SPSS survival manual tai Metsämuuronen (2006). Tutkimuksen tekemisen perusteet ihmistieteissä. Kvantitatiivisten menetelmien tietovarannossa on hyvät suomenkieliset ohjeet kuvien kera. |
Muuttujien määrittäminen
|
Muuttujien määrittely
tapahtuu Variable View-ikkunassa
(ohjelmaikkunan vasemmassa alareunassa oleva välilehti). Vasempaan sarakkeeseen Name
anna muuttujan nimi (lyhyt nimi, ehdoton yläraja 64 merkkiä, ei
välilyöntejä tai erikoismerkkejä, pitää alkaa kirjaimella). Type sarake: Muuttujan tyyppi valitaan
klikkaamalla Type -sarakkeen oikeata
reunaa hiirellä. Avautuvasta valikosta valitaan joko Numeric
(numeroille, joissa voi olla desimaaleja tai String
(nimille, määritelmille ym. sanoille ja lauseille). Usein kannattaa
valita vaihtoehto Numeric ja sitten
myöhemmin määritellä eri numeroilden määreet Values-sarakkeessa. Tekstimuotoisten
muuttujien käyttö voi olla järkevää jos aineistossa tulee tarvetta käsitellä
yksittäisiä tapauksia esimerkiksi tutkimalla muista runsaasti poikkeavia
havaintoja (outliers). Tekstimuotoiset muuttujat
ovat myös käyttökelpoisia jos halutaan sirontakuvioon kunkin tapauksen nimi
(esim. kaupunki) tai esimerkiksi ryhmittelyanalyysissa
halutaan tutkia ryhmiä yksityiskohtaisemmin. Huomaa että esimerkiksi
postinumerot ja puhelinnumerot ovat String-muuttujia.
Nyrkkisääntönä voi pitää, että jos erisnimillä on merkitystä analyysissä,
valitse String, jos taas kysymyksessä
on luokkaa kuvaava attribuuttimuuttuja, määritä muuttujien arvot Values-sarakkeessa.
Jos muuttuja saa erittäin pieniä (esim. 0,00000003) arvoja tai erittäin
suuria arvoja (esim. miljoonia), kannattaa käyttää vaihtoehtoa Scientific Notation,
sillä silloin desimaalipilkun paikan kertoo muuttujan arvon eksponentti,
joten pilkkuvirheitä ei satu niin helposti. Width-sarake: Määritetään string (kirjaimia) muuttujan merkkien
maksimimäärä, voi joutua lisäämään jos muuttujan arvot tekstiä, esimerkiksi
avoimia vastauksia. Decimals- sarake:
Klikkaa saraketta, määritä desimaalien määrä nuolinäppäimillä. Jos muuttuja
on esim. nominaaliasteikon muuttuja, ei desimaaleja
yleensä tarvita. Desimaalien määrä voi vaikuttaa tulosteisiin. Esimerkiksi Output
-ikkunaan tulostuu keskiarvoihin kaksi desimaalia enemmän kuin on
määritelty muuttujan desimaaleiksi Variable
View -ikkunassa. Custom
Tables -toiminnossa desimaaleja tulostuu niin
monta kuin Variable View -ikkunassa on määritelty. Label-sarake: Muuttujan kuvaus, joka tulee outputin
taulukoihin, joten varo niin pitkiä tekstejä että taulukot tulevat
vaikealukuisiksi. Values-sarake: Käytetään muuttujan ryhmien tai arvojen määrittämiseen. Napsauta
hiirellä Values-sarakkeen oikeaan reunaan ja anna tarvittavat arvot
(esim. Value: 1, Value Label: Kissa
> Add >Value: 2 > Value Label: Koira
> Add > OK.) Missing-sarakkeessa voidaan määrätä
puuttuvien tietojen koodit, jos halutaan erotella puuttuvien tietojen syyt
(esim. väärä vastaus tai puuttuva vastaus). Kun puuttuvien tietojen symbolit
on määritelty erikseen (esim. 99 = väärin ymmärretty kysymys), SPSS ei ota Missing -sarakkeeseen määriteltyjä
arvoja mukaan tilastollisiin analyyseihin. Columns-sarake: Määrittää Data View -ikkunassa näkyvän sarakkeen leveyden. Joskus on
esim. mukava kapeuttaa sarakkeita jotta kaikki muuttujat näkyvät tai leventää
sarakkeita jotta teksti näkyy. Align-sarake: Määrittää reunan tasauksen: tuleeko
arvo sarakkeen vasempaan reunaan, keskelle vai oikeaan reunaan, tämä ei
yleensä ole tärkeää. Scale-sarake: Valitse nominal laatueroasteikolliselle (esim. sukupuoli),
ordinal järestysasteikolliselle
(esim. paremmuusjärjestys) tai scale suhdeasteikon
(esim. matkan pituus) muuttujalle. Tässä kannattaa olla huolellinen, sillä
SPSS ei esimerkiksi suostu laskemaan aina keskiarvoja nominaaliasteikollisille
tai SPSS ei osaa tehdä lukumäärätaulukoita aina oikein, jos asteikkoina on
virheellisesti suhdeasteikko. Asteikot vaikuttavat myös joissakin
tilastollisissa analyyseissa. Aineiston syöttö tapahtuu Data View-ikkunassa
(Data View-välilehti vasemmassa alareunassa). Napsauta
ensimmäisen sarakkeen ensimmäistä solua, liiku eteenpäin nuolinäppäimillä.
Kukin tapaus tulee omalle rivilleen, kukin muuttuja omaan sarakkeeseensa.
Voit myös kopioida aineiston Excelistä tai avata Excel-tiedoston File > Olen > Data > Files of type > Excel > etsi
tiedosto > Open. |
Virheiden
tarkistaminen
|
Aineiston virheettömyys pitäisi aina tarkistaa. Jos olet
nopea aineistön syöttäjä, nopein tapa tarkastaa
virheet on syöttää aineisto kaksi kertaa ja tarkistaa tunnuslukujen ja lukumäärien
avulla aineistojen yhtenevyys. Ala- ja ylärajan ylittävät virhelyönnit
kannattaa katsoa nominaaliasteikon muuttujilla Analyze > Descriptive
statistics > Frequencies...
toiminnolla ja
jatkuvilla muuttujilla Analyze
> Descriptive statistics
> Explore... toiminnolla. Taulukosta löytyvä virhearvo löytyy tämän
jälkeen isostakin aineistosta esimerkiksi Sort
Cases toiminnon avulla. On kuitenkin huomattava, ettei tällä menettelyllä löydy
esimerkiksi virheitä, joissa esimerkiksi poika (1) on vahingossa koodattu tytöksi (2), vaan vain virheet
jotka koskevat määritelyjä lukuja tai ääriarvoja
voivat löytyä. Sen vuoksi tarvitaan lisäksi aineiston syötön tarkistaminen.
Jos olet nopea ja hyvä koodaaja, tarkistus on kätevintä tehdä koodaamalla
aineisto kahteen kertaan ja katsomalla aineiston erot. Muuten käy aineisto
läpi tapaus tapaukselta. Puuttuvien tietojen vaikutusta kuvauksiin ja analyysiin
voi arvioida erityisesti Explorer-toiminnolla (Analyze -> Descriptive Statistics -> Explore.
Ristiintaulukoimalla muuttujia voidaan saada selville ovatko puuttuvat
vastaukset kasaantuneet tietyn tyyppisille
tapauksille. Valitsemalla Options-painikkeen alta
vuorotellen listwise (jolloin mukaan otetaan vain
tapaukset, joissa ei ole puuttuvia tietoja) ja pairwise
(jolloin mukaan otetaan kaikista tapauksista jokaisen muuttujan ei-puuttuvat
arvot) saadaan esiin vaikutuksia, joita aiheutuu muuttujissa olevista
puuttuvista arvoista. Jos Listwise ja Pairwise eroavat huomattavasti toisistaan, se viittaa
siihen että esimerkiksi korrelaatioita laskettaessa tai vaikkapa
faktorianalyysissä muuttujien puuttuvilla arvoilla saattaa olla vaikutusta
tuloksiin. Esimerkiksi korrelaatioita laskettaessa Listwise
poistaa useita korrelaatioita laskettaessa kaikki tapaukset, joissa on
yhdessäkin analyysissä mukana olevassa muuttujassa puuttuva arvo. Näin
esimerkiksi yksi runsaasti puuttuvia tietoja sisältävä muuttuja vaikuttaa
kaikkiin muihinkin korrelaatioihin vinouttaen tuloksia ja usein vähentäen
tulosten merkitsevyyttä. |
Tapausten valitseminen
|
Joskus voit haluta analysoida esimerkiksi vain tiettyyn kuntaan liittyviä tuloksia, jolloin voit jättää muut kunnat huomiotta. Data -> Select cases -> If condition is statisfied -> If -> siirrä muuttuja oikeaan ikkunaan -> esim: kunta =1 | kunta = 4 (kunta saa arvon 1 tai 4)> continue -> ok. |
Reliabiliteetti
|
Reliabiliteettianalyysin avulla voit määrätä esim. kyselyn kysymysten liittymistä toisiinsa, saat reliabiliteettikertoimen, joka kuvaa muuttujien sisäistä samankaltaisuutta. Reliabiliteettikertoimen avulla voit löytää esim. kysymyksen, joka ei mittaakaan samaa asiaa kuin muut ilmiön mittaamiseen tarkoitetut kysymykset. Ennen analyysia kaikki asteikot on käännettävä samansuuntaisiksi, esimerkiksi kielteiset myönteiseksi. (Kääntämisen voi tehdä esimerkiksi Transform > Compute Variable > Kirjoita Target Variable -kenttään uuden muuttujan nimi > siirrä käännettävä muuttuja Numeric Expression -ikkunaan > kirjoita ikkunaan 6 - käännettävän muuttujan nimi (jos asteikko on 1-5). Reliabiliteetti otetaan Analyze-valikosta -> Scale -> Reliability analysis -> Siirrä oikeaan ikkunaan samaa asiaa mittaavat muuttujat -> Paina statistics-painiketta -> Valitse ”scale if item deleted” -> continue -> OK. Kun alphan arvo (ylempi taulukko Cronbach's Alpha) > ,60, mittaria pidetään usein luotettavana. Jos alemman taulukon sarakkeessa ”Alpha If item deleted” alfa saa suuremman arvon kuin ylemmän taulukon Alphan arvo, on syytä harkita muuttujan poistamista samaa asiaa mittaavasta mittarista. Jos poistamisen jälkeen tehtävässä löytyy lisää reliabiliteettia laskevia muuttujia, eniten reliabiliteettia laskeva muuttuja voidaan taas poistaa jne. Poistoja tehdessä pitää kuitenkin myös miettiä, onko mukana teoreettisesti tarpeellisia muuttujia. Lisäksi usean muuttujan pitäminen mukana summamuuttujassa lisää summamuuttujan stabiilisuutta, koska useampi muuttuja vähentää satunnaishajontaa. |
Summamuuttujan teko
|
Summamuuttujia muodostetaan yleensä samalla asteikolla mitatut väitelauseet yhteenlaskemalla tai muuten samaa asiaa mittaavat muuttujat yhteenlaskemalla. Se mittaavatko muuttujat todella samaa asiaa, voidaan tarkistaa reliabiliteettianalyysilla. Transform-valikosta -> Compute -> target variable ikkunaan kirjoita summamuuttujan nimi -> Vasemmasta ikkunasta siirrä nuolipainikkeen avulla muuttuja oikeaan ikkunaan -> paina painiketta + -> lisää muut summamuuttujaan kuuluvat muuttujat samalla tavalla (+ merkki väliin) -> ok -> dataikkunan viimeiseen sarakkeeseen ilmestyy uusi tekemäsi summamuuttuja. |
Huom! Jos yhteenlaskettavissa muuttujissa on puuttuvia tietoja, ne pienentävät summaa, joten on käytettävä muuttujien keskiarvoa: Transform > Compute > target variable ikkunaan kirjoita summamuuttujan nimi > Functions-ikkunasta rullaa esiin mean(numexpr,numexpr), kaksoisnapsauta > kirjoita sulkeiden sisään summamuuttujaan kuuluvat muuttujat, erota muuttujat pilkulla > OK. |
Tunnusluvut
|
Usein nominaaliasteikon muuttujia kannattaa arvioida Frequencies - toiminnolla (Analyze > Descriptive statistics > Frequencies...), jossa siirrät haluamasi muuttujat Variables -ikkunaan. Näin saat esiin kunkin luokan lukumäärät. Jatkuvien muuttujien tunnuslukuja varten on tarkoitettu Descriptives toiminto ( Analyze -> Descriptive statistics -> Descriptives...) -> siirrä muuttuja(t) oikeaan ikkunaan -> paina painiketta Options -> Valitse tarpeen mukaan mean (keskiarvo: datan arvojen summa jaettun arvojen lukumäärällä), median (mediaani: keskimmäinen arvo), mode (moodi: yleisin arvo), sum (datan arvojen summa), std. deviation (standard deviation, keskihajonta: kuvaa normaalisti jakautuneen muuttujan hajontaa keskiarvon ympärillä), variance (varianssi: keskihajonta toiseen), range (vaihteluväli: maksimi miinus minimi), S.E. mean (standard error of mean: kuvaa otoksen keskiarvon oletettua hajontaa), skewness (vinous: ks. jakauman normaalisuus), kurtosis (huipukkuus: ks. jakauman normaalisuus). |
Ristiintaulukointi
(Crosstabs)
|
Ristiintaulukointi on mainio tapa
arvioida nominaaliasteikollisten muuttujien
keskinäisiä suhteita niiden kuhunkin luokkaan tulevien luokkien lukumääriä
arvioimalla (Analyze > Descriptive statistics > Crosstabs). Siirrä toinen nominaaliasteikon
muuttuja Row -ikkunaan ja toinen Column -ikkunaan. Usein
ristiintaulukoinnin analyysissä tärkeätä on verrata ylemmällä rivillä (tai
sarakkeessa) olevien lukumäärien erojen suhdetta alemmilla riveillä (tai
sarakkeissa) olevien lukumäärien suhteisiin. Tämä arviointi on yleensä
helpompaa jos vertailuun käyttää prosentteja, jotka saa esiin Cells -painikkeen alta valitsemalla Row (tai Column)
ja poistamalli valinta Observed
-valinnasta. Paina sen jälkeen Continue > OK. Ristiintaulukoinnissa havaittuja lukumäärien suhteissa havaittujen erojen merkitsevyyttä voi testata Chi-neliön testillä. |
Usean muuttujan luokkien tunnuslukujen kuvaus
|
Usean muuttujan keskiarvot ym. tunnusluvut saa Analyze > Tables > Custom Tables > siirrä nominaaliasteikon muuttuja hiirellä Columns-palkin päälle. Variable View -näkymässä tulee olla määritelty muuttuja nominaaliasteikolliseksi, jotta muuttujaa voi käyttää luokitteluun. Vedä ensimmäinen jatkuva muuttuja Rows palkin päälle. Siirrä sen jälkeen muut jatkuvat muuttujat hiirellä syntyneen taulukon alareunaan. Summary Statistics -painikkeen alta voi vaihtaa tunnuslukuja. Nominaaliasteikon muuttujia Rows palkkiin vietäessä voidaan tehdä koosteita ja vertailuja useiden muuttujien luokkien lukumääristä. Jotta keskiarvoja voisi laskea on muuttujan oltava määritelty suhdeasteikon muuttujaksi (scale). Keskiarvojen desimaalien määrää taulukoissa voi säätää Variable View -ikkunan Decimals -sarakkeesta. Desimaaleja voi määrittää myös suoraan Output-ikkunassa: kaksoisnapsauta taulukkoa > maalaa haluamasi tunnusluvut > napsauta lukuja hiiren oikealla painikkeella > avautuvasta valikosta voit määrittää solujen ominaisuudet, järjestää tulokset suuruusjärjestykseen tehdä taulukosta kuvioita Raportoinnin esimerkki |
Jakauman normaalisuus
|
Parametriset menetelmät edellyttävät numeeristen muuttujien jakauman olevan normaalisti jakautuneita. Normaalisti jakautunut muuttuja muistuttaa symmetristä Gaussin kellokäyrää. Havainnollisen kuvan jakauman normaalisuutta voi tutkia esimerkiksi histogrammilla: Graphs -> Histogram -> Siirrä muuttuja oikeaan pikkuikkunaan -> rastita Display normal curve -> Ok. Jakauman tulisi muistuttaa Gaussin käyrää. Tunnusluvut skewness ja kurtosis kuvaavat myös jakauman normaalisuutta: Analyze -> Descriptive statistics -> Frequencies -> siirrä muuttuja oikeaan ikkunaan -> Paina painiketta Statistics -> Valitse Skewness ja Kurtosis -> Continue -> Ok. Skewnessin ja kurtosiksen arvo ei nyrkkisäännön mukaan saisi olla yli kaksi kertaa niin suuri kuin niiden standard error, jotka aina myös ilmoitetaan outputissa. Skewnessin arvo on usein tärkeämpi kuin Kurtosiksen arvo. Normaalisuutta voi testata Kolmogorov-Smirnovin testillä. analyze > Nonparametric Tests > 1-Sample K-S... > Siirrä muuttuja Test Variable List -ikkunaan > Valitse Exact.. painikkeen alta Exact > continue > OK. Jos arvo Exact Sig. (2-tailed) rivillä < ,05, jakauma ei liene normaali. Suurilla tapausten määrillä testitulos on kuitenkin lähes aina epänormaali, joten testiä ei voi käyttää suoraviivaiseen päättelyyn. Joillakin muuttujilla, esimerkiksi koulumatkalla muuttuja on lähes aina ei-normaalisti jakautunut (useimmat asuvat lähellä koulua, mutta muutama asuu kaukana). Tehtäessä parametrisiä testejä (esim. t-testi), jotka edellyttävät normaalisti jakautunutta riippuvaa muuttujaa, voidaan tarvittaessa kokeilla jakauman "suoristamista" muuttujamuunnoksilla. |
Normaalisuuden arviointi Explore
-toiminnolla
|
Hyvän yhteenvedon muuttujan normaalisuudesta saa Explore-toiminnolla: Analyze > Descriptive Statistics > Explore. Siirrä arvioitava muuttuja Dependent List –ikkunaan. Statistics –painikkeen alta valitse Descriptives ja Outliers. Paina Plots –painiketta, valitse Histogram ja Normality plots with tests > Continue. Paina Options –painikkeen alta Exclude cases pairwise > Continue > OK. Output-ikkunassa taulukossa Descriptives huomioi seuraavat seikat: Poikkeavatko keskiarvo (Mean) ja 5 % trimmed mean (josta on otettu 5 % ylimmistä ja alimmista arvoista pois) toisistaan? Skewness ja kurtosis -arvo ei nyrkkisäännön mukaan saisi olla yli kaksi kertaa niin suuri kuin niiden standard error, jotka aina myös ilmoitetaan outputissa. Skewnessin arvo on usein tärkeämpi kuin Kurtosiksen arvo. Suuremmilla aineistoilla (N > 200) vinous ei enää helposti vaaranna testin tulosta. Extreme values –taulukossa näkyy viisi suurinta ja viisi pienintä arvoa. Tests of Normality on Kolmogorov-Smirnov-testi (ks. yllä). Histogram –kuvion pitäisi muistuttaa kellokäyrää. Normal Q-Q Plotin arvojen pitäisi olla suurin piirtein samalla suoralla. Detrended Normal Q-Q Plots pitäisi hajaantua satunnaisesti nolla-viivan ympärille. Siirtämällä ryhmittelevä muuttuja (esim. sukupuoli) Factor List -ikkunaan voidaan normaalisuutta tarkastella osapopulaatioiden osalta erikseen. Esimerkiksi tyttöjen ja poikien ryhmissä pitäisi kummankin ryhmän olla normaalisti jakautunut, jotta analyysissä voi käyttää parametrisiä menetelmiä, esim. varianssianalyysia. |
Luottamusväli
|
Luottamusväli kuvaa jakaumaa, jonka alueella populaation keskiarvo tietyllä uskottavuudella sijaitsee. Se kuvaa otoskeskiarvon jakaumaa. Usein tämä uskottavuuden raja määritetään 95% todennäköisyydeksi (SPSS:n oletusarvo, voi olla myös esim. 99% tai 99,9%). Riski, että keskiarvo ei sijaitse alueella, on tällöin 5%. Tarvitsemme sitä laajemman alueen, mitä varmempia haluamme otoksemme keskiarvon ja hajonnan perusteella arvioidun koko populaation (esim. suomalaiset 4-vuotiaat pojat) keskiarvosta olla. Analyze > Descriptive statistics > Explore > Siirrä muuttuja Dependent List ikkunaan > OK. Lower Bound kertoo luottamusvälin alarajan, Upper Bound ylärajan. Luottamusvälin arvioi on luotettava vain normaalisti jakautuneilla muuttujilla, käytännössä mielellään aidolla suhdeasteikolla mitatuilla muuttujilla. Järjestysasteikot (esim. väitelauseet joita arvioidaan yhdestä viiteen) antavat usein järjettömiä luottamusvälejä. Luottamusvälin raportoinnin esimerkki. |
Yhden otoksen Khii-neliö-testi (chi-square)
|
Voidaan käyttää verrattaessa muuttujan ryhmien suuruuksia.
Jos esimerkiksi oletetaan että kummassakin ryhmässä pitäisi tulla 50 %
tapauksista, voidaan todellista jakaumaa verrata tähän odotusjakaumaan.
Toinen vaihtoehto on, että aikaisemman tutkimuksen perusteella oletetaan
ryhmäkoot tietynlaisiksi. Esimerkissä katsomme onko tyttöjä ja poikia tapauksina
yhtä paljon: Analyze > Nonparametric
tests > Legacy dialogs > Chi-Square > Siirrä Sukupuoli-muuttuja Test Variable List -ikkunaan > Expected Values kohdassa oletusarvo on All
categories Equal. Jos
sinulla muu lukumäärien suhde tai ryhmiä on useampia, sinun täytyy valita Values ja kirjata jokaiselle ryhmälle oma odotusarvo (esim. ,3 ja ,7) >
OK. Ensimmäinen taulukko näyttää havaitut ja odotusarvot.
Toinen taulukko kertoo havaittujen ja odotusarvojen eron merkitsevyyden, joka
katsotaan Asymp Sig.
riviltä > jos merkitsevyys pienempi kuin ,05,
lukumäärien erot ovat merkitseviä. Näin ollen esimerkkiotoksessa ei ollut
tilastollisesti merkitsevästi enemmän tyttöjä tai poikia. Katso raportoinnin esimerkki. |
Riippumattomien otosten Khii-neliö-testi (chi-square)
|
Tutkitaan lukumäärien eron merkitsevyyttä, eli kuinka suuri on riski, ettei ryhmien välillä olekaan eroa. Mitä suurempi odotusarvojen ja havaittujen arvojen ero, sitä pienempi on riski, että ero johtuu sattumasta. Analyze -> Descriptive -> Crosstabs-> valitse 2 muuttujaa -> Paina statistics -> valitse chi-square - > ruksaa Phii and Cramers V > >continue -> OK Riskitason oltava alle .05, jotta lukumäärien ero olisi merkitsevä (eli riski että ero johtuu sattumasta on oltava alle 5%). Merkitsevyys katsotaan yleensä kohdasta Pearson Chi-square. Symmetric measures -ikkunassa Cramer's V kuvaa muuttujien keskinäisen vaikutuksen määrää (Effect size), kahden kategorian tapauksessa alle .01 on pieni vaikutus (.30 kohtalainen, .50 suuri), kolmen kategorian tapauksessa alle .07 on pieni vaikutus (.21 kohtalainen, .35 suuri) ja neljän kategorian tapauksessa alle ,06 on pieni vaikutus (,17 kohtalainen, ,29 suuri). Enintään 20 % odotusarvoista saa olla alle viiden. Kaikkien odotusarvojen tulee olla vähintään yksi. Jos odotusarvojen vaatimukset eivät täyty, 2x2 taulukossa luotettavampi merkitsevyysarvo löytyy sarakkeesta Exact Sig. (2-sided) riviltä Fischer's exact test. Metsämuuronen suosittaa käyttämään aina tarkkaa testiä, sillä aineiston pienuus, taulukoiden vajaus tai jakautuminen ei aiheuta tarkassa (Exact..) testissä harhaisia tuloksia. Suuremmista taulukoista Crosstabs-ikkunasta valitse painikkeen Exact... alta Exact > Continue > OK. Katso merkitsevyys sarakkeesta Exact Sig. (2-sided). Jos SPSS ei pysty tekemään eksaktia testiä (esim. jos aineistossa on satoja tapauksia ja useita luokkia, ei tarkka testi useinkaan onnistu) , voi SPSS:n laskemista helpottaa esim. vähentämällä solujen määrää Recode-komennolla: Transform -> Recode- Into different variables -> siirrä muuttuja oikeaan ikkunaan -> anna muuttujalle uusi nimi-> paina painiketta Old and new values ->Range > määritä uudet arvot (esim. 1 vasempaan ikkunaan, 9 oikeaan > New value ikkunaan esim. 1 uusi arvo on 1 > paina add > Vasempaan ikkunaan 10, oikeaan 1000 > New value ikkunaan arvo 2 > paina add > continue > Anna uudelleen luokitellulle muuttujalle nimi Output variable -ikkunaan (esim pktyo2) > change -> OK. Luokituksia valitsemalla (select cases) voi myös vähentää solujen määrää ja saada tarkasteluun vain haluamansa luokitukset. Raportoinnin esimerkki. |
Korrelaatio
|
Mittaa kahden muuttujan välistä yhteyttä. Korrelaation arvo vaihtelee miinus yhden ja plus yhden välillä. Mitä lähemmäs plus ykköstä korrelaatio kasvaa, sitä vahvempi yhteys muuttujilla on (kun toisen muuttujan arvo kasvaa, toisenkin muuttujan arvo kasvaa.) Jos korrelaatio lähenee nolla, muuttujien välillä ei ole yhteyttä. Jos korrelaatio on miinusmerkkinen toisen muuttujan arvojen vähetessä, toisen muuttujan arvoilla on taipumus kasvaa ja lähetessään miinus ykköstä yhteys vain vahvenee. Analyze -> Correlate -> Bivariate -> Siirrä muuttujat oikeaan ikkunaan -> Ok. Tulos katsotaan Correlations -taulukosta, jossa korrelaatiot ja niiden merkitsevyydet on ristiintaulukoitu. Riviltä Pearson Correlation katsotaan siis yhteyden voimakkuus. Riviltä Sig. (2-tailed) katsotaan korrelaation tilastollinen merkitsevyys. Huomaa puuttuvien tietojen tai ei-normaalisuuden vaikutus korrelaatioon. Kun korrelaation arvo kasvaa (Outputissa rivillä Correlation), riskitaso (riski ettei korrelaatiota todellisuudessa olekaan) pienenee (rivillä Sig. (2-tailed), eli mitä suurempi korrelaatio, sitä harvemmin se johtuu sattumasta. Kasvatustieteessä riskitaso on usein ,05 (viisi prosenttia). Korrelaatiokerroin siis kertoo yhteyden voimakkuudesta, Sig. sattuman mahdollisuudesta. Laatueroasteikollisia muuttujia, varsinkaan jos luokkia on enemmän kuin kaksi, ei voi käyttää korrelaatioiden laskemiseen, elleivät sitten ryhmät ole järjestetty esimerkiksi ominaisuuden suuruuden mukaan. Muuttujien keskinäistä vaikutusta voi kuvata kertomalla korrelaation itsellään: Esimerkiksi ,300:n korrelaatio antaa muuttujien keskinäiseksi vaikutukseksi ,300 * ,300 = ,090, eli vaikutus on yhdeksän prosenttia. Jos muuttujat eivät ole normaalisti jakautuneet, ruksaa Analyze -> Correlate -> Bivariate> Bivariate Correlations -ikkunassa Spearman. Spearmanin järjestyskorrelaatiokerroin ei ole niin herkkä muuttujan ei-normaalisuudelle tai poikkeaville arvoille kuin Pearsonin korrelaatiokerroin. Lisäksi normaalisti jakautuneissa muuttujissa Spearman antaa saman tuloksen kuin Pearson, joten ei ole mitään syytä olla käyttämättä Spearmania. Spearmanin korrelaatiokerroinkaan ei kuitenkaan estä puuttuvien tietojen vinouttavaa vaikutusta. Se ei myöskään pysty löytämään ei-lineaarisia yhteyksiä. Korrelaation arvo on rivillä Spearman's rho. Katso raportoinnin esimerkki. |
T-testi
|
Mittaa kahden ryhmän keskiarvojen erojen merkitsevyyttä. Analyze -> compare means -> Independent samples t-test -> siirrä testimuuttuja (jossa keskiarvot eroavat) ikkunaan test variable -> siirrä ryhmittelevä muuttuja (esim. asuinkunta) kohtaan grouping variable -> valitse ryhmittelevä muuttuja hiirellä -> paina painiketta Define groups -> kirjoita ryhmät määrittelevät luvut (esim. 1 ja 2, jotka kuvaavat Helsinkiä ja Espoota)-> paina continue -> Ok. Ensimmäisessä taulukossa näkyy keskiarvojen ero. Toisessa testataan eron merkitsevyttä. Jos Levenen testin mukaan (jos arvo < ,05) ryhmien varianssit ovat erisuuret, luetaan merkitysevyys alariviltä, muuten yläriviltä (kohdasta sig.). Jos riski on alle ,05, niin keskiarvojen ero on tilastollisesti merkitsevä. Katso raportoinnin esimerkki. |
Mann-Whitneyn
testi
|
Keskiarvojen eron merkitsevyyttä tutkittaessa muuttujan täytyy olla normaalisti jakautunut. Jos näin ei ole, voit usein käyttää Mann-Whitneyn testiä. Analyze > Nonparametric Tests > Independent Samples.. > Objective-välilehdeltä valitse Customize analysis > Fields-välilehdeltä siirrä luokitteleva nominaaliasteikollinen muuttuja Groups-ikkunaan (pitää olla kaksi luokkainen) > Siirrä vertailtava muuttuja Test Fields -ikkunaan > Settings-välilehdeltä ruksaa Mann-Whitney U (2 samples) > Paina Run > Kaksoisnapsauta Hypothesis Test Summary -taulukkoa > Katso tilastollinen merkitsevyys kohdasta Asymptotic Sig. (2-sided test). Jos luku on pienempi kuin ,05, ryhmien ero on tilastollisesti merkitsevä. Katso raportoinnin esimerkki. |
Yksisuuntainen
varianssianalyysi (ANOVA)
|
Verrattaessa yhden ryhmittelymuuttujan (esim. asuinpaikka)
vaikutusta jatkuvan muuttujan vaihteluun (esim. bruttotulot) käytetään
yksisuuntaista varianssianalyysiä. Se tutkii sekä havaintojen vaihtelua
ryhmien sisällä että ryhmäkeskiarvojen vaihtelua koko tutkittavassa joukossa.
Varianssianalyysia käytetään ryhmäkeskiarvojen väliseen vertailuun silloin,
kun ryhmiä on enemmän kuin kaksi (jolloin käytetään usein t-testiä). Jos ei
haluta kaikkia luokkia analyysiin, käytä select cases -valintaa.
Ennen varianssianalyysin suorittamista on tarkasteltava muuttujan
normaalisuutta ja mahdollisia ääriarvoja. Analyze > General Linear Model > Univariate... > Siirrä riippuva muuttuja (esim. bruttotulot) Dependent Variable -ikkunaan
> Siirrä ryhmittelevä muuttuja Fixed Factor(s) ikkunaan > Jos haluat tietää minkä
ryhmien välillä mahdolliset erot ovat paina Post Hoc... > Siirrä
ryhmittelevä muuttuja (esim. kunta) Post Hoc Tests
for: -ikkunaan > Valitse testiksi Tukey >
Continue > Options
-painikkeen alta valitse Descriptive statistics, Estimates of effect size ja Homogeneity tests. > Continue > OK. Descriptive Statistics
-taulukosta
nähdään keskiarvot eri ryhmissä. Levene's
test of Equality of Error Variances -taulukosta
nähdään varianssien yhtäsuuruus, Sig. -sarakkeen arvon oltava >,05. Tests
of Between-Subjects Effects
-taulukosta katsotaan merkitsevyys sarakkeesta Sig.
riviltä ryhmittelevä muuttuja (esim. kunta), todennäköisyyden oltava <,05, jotta ryhmien välisen keskiarvon erot olisivat
tilastollisesti merkittäviä. Minkä ryhmien välillä mahdolliset erot ovat,
näkyy taulukosta Multiple Comparisons. Sig. -sarakkeesta (jos arvo <,05, ryhmien erot merkitseviä).
Jos ryhmien varianssit ovat eri suuria tai jakaumat ovat kovin vinoja, käytä
ei-parametristä Kruskal-Wallisin testiä, jossa ei oleteta jakauman
olevan normaaleja. Katso raportoinnin esimerkki |
Yksisuuntainen
toistettujen mittausten varianssianalyysi
|
Jokainen tapaus (esim. lapsi) on arvioitu tai testattu kaksi tai
useampia kertoja samalla arviointiasteikolla. Analyysia varten on yksi
riippumaton variaabeli (ryhmittelevä muuttuja) ja arviointikertoja vastaava
määrä muuttujia (jatkuvia muuttujia, esim. testiarvoja kullakin
testauskerralla) kuvaamaan riippuvaa muuttujaa. Analyze > General Linear Model > Repeated measures > Number of Levels-laatikkoon kirjoita
mittausten lukumäärä (esim. 2 tai 3) > Paina Add
> Paina Define > Valitse
testimuuttujat ja siirrä nuolipainikkeella Within
Subjects Variables -laatikkoon
> Siirrä ryhmittelevä (t) muuttuja (t) Between-Subjects
Factor(s). Napsauta Options
> Ruksaa Descriptive statistics ja Estimates
of effect size >
Post-hoc testiä
(kertoo useamman ryhmän tapauksessa, minkä ryhmien välillä erot ovat) varten
valitse riippumattoman kuvaus Factor
and Factor Interactions -ikkunasta
Display means
for -ikkunaan > ruksaa Compare
main effects > valinnassa Confidence interval
adjustment valitse Bonferroni
> Continue > Ok. Descriptive Statistics
-taulukosta
nähdään ryhmien välisten keskiarvojen erot, hajonnat ja tapausten lukumäärä. Multivariate tests
-taulukosta keskity riviin Wilks'
Lambda > Sig. -sarake
kertoo eron merkitsevyyden, jos arvo on pienempi kuin ,05, testitulokset
poikkeavat mittauskertojen välillä toisistaan. Sarake Partial
Eta Squared kertoo vaikutuksen suuruuden (,01 = pieni, ,06 = kohtuullinen, ,14 = suuri). Pairwise Comparisons
-taulukko kertoo minkä ryhmien välillä erot ovat (jos ovat), kukin testi on omalla rivillään ja
yhden testikerran (muuttujan) keskiarvoja verrataan aina kaikkien muiden
testausten keskiarvoihin, merkitsevät erot on merkitty tähdellä ja eron
merkitsevyys löytyy Sig. -sarakkeesta. Raportoinnin esimerkki. |
Kaksisuuntainen
varianssianalyysi
|
Analyysissä on kaksi riippumatonta muuttujaa (esim.
sukupuoli ja koulutustaso) sekä riippuva muuttuja (vähintään hyvän
järjestysasteikon muuttuja,
esim. palkka). Tällöin verrataan ryhmien välisiä eroja. Kaksisuuntainen
varianssianalyysi voidaan tehdä myös toistettujen mittausten
varianssianalyysilla (ks. yllä). Testillä voidaan arvioida riippumattomien
muuttujien vaikutusta esim. palkan suuruuteen ja niiden yhdysvaikutusta
(esim. vaikuttaako koulutus enemmän miehillä vai naisilla). Analyze > General Linear Model > Univariate > Siirrä riippuva muuttuja (esim. palkka) Dependent variable -ikkunaan
ja kaksi riippumatonta muuttujaa (esim. sukupuoli ja koulutustaso) Fixed
Factors -ikkunaan > Paina Options > Ruksaa Descriptive
Statistics, Estimates of effect size ja Homogeneity tests
> Continue > Paina Post Hoc > Factors -ikkunasta siirrä yksi tai kaksi muuttujaa
oikeaan ikkunaan > valitse Tukey
> Continue > Paina Plots
> Horizontal - laatikkoon siirrä eniten
ryhmiä sisältävä ryhmittelevä muuttuja > Separate
Lines -laatikkoon toinen riippumaton muuttuja > Add
> Continue > Ok. Descriptive statistics
-taulukossa
on keskiarvojen erot, hajonnat ja lukumäärät. Levene's
test of Equality of Error Variances -taulukon Sig. -arvon
tulisi olla yli ,05, muuten ryhmien varianssien ero on liian suuri ja testin
luotettavuus kärsii. Voit varmuuden vuoksi nostaa merkitsevyysrajaksi esim. ,01. Tests of
Between-Subjects Effects -taulukosta
näkyy kummankin muuttujan
merkitsevyys Sig. -sarakkeesta sekä muuttujien yhteisvaikutus heti näiden
muuttujien alapuolelta (esim. riviltä sukup*ika). Jos muuttujien yhdysvaikutus on merkitsevä, on
näiden muuttujien yksittäisten vaikutusten merkitsevyys epävarma, sillä
yhdysvaikutus vaikuttaa merkitsevyyksiin. Jos yhdysvaikutus on merkitsevä, Pallant (2007, 264) ehdottaa tekemään erilliset
varianssianalyysit kullekin ryhmälle (esim. miesten ja naisten koulutustason
yhteys palkkaan). Usein merkitsevyyden rajana on ,05,
eli jos merkitsevyys on tätä pienempi, on keskiarvojen ero tilastollisesti
merkitsevä. Partial Eta Squared -sarakkeesta näkyy vaikutuksen suuruus. Multiple Comparisons
-taulukossa on eriteltynä kunkin ryhmän väliset erot ryhmä kerrallaan.
Raportoinnin esimerkki. |
Kruskal-Wallisin testi
|
Käytetään varianssianalyysin sijasta ei- normaalien jakaumien ja
järjestysasteikollisten muuttujien ryhmien välisiä eroja arvioitaessa. Analyze > Nonparametric Tests > Independent Samples > Objective-välilehdeltä valitse Customize analysis > Fields-välilehdellä siirrä ryhmittelevä muuttuja Groups-ikkunaan ja vertailtava muuttuja Test Fields-ikkunaan > Settings-välilehdeltä valitse Customize tests ja Kruskal-Wallis 1-way ANOVA (k samples) > Run. Kaksoisklikkaa taulukkoa Hypothesis Test Summary > Ylhäällä olevasta Boxplot-kuviosta voi verrata ryhmien eroja. Tilastollinen merkitsevyys on rivillä Asymptotic Sig. (2-sided test). Ryhmien eron merkitsevyys näkyy Test
Statistics -taulukon Asymp.
Sig. -riviltä
(kasvatustieteessä melkein merkitsevän eron rajana on usein luku joka on
pienempi kuin ,050). Voit myös kokeilla muuttujamuunnosta
saadaksesi jakauman normaaliksi ja kelvolliseksi analysoitavaksi
parametrisilla menetelmillä, siis esim varianssianalyysilla tai regressioanalyysilla. Raportoinnin esimerkki. |
Regressioanalyysi
|
Reggressioanalyysin avulla voidaan tutkia kuinka paljon yksi tai useampi muuttuja (Independent) selittää tai ennustaa jotakin toista muuttujaa (Dependent). Muuttujien on oltava jatkuvia ja normaalisti jakautuneita. Analyze-valikosta valitaan Regression > Linear…. Siirretään riippuva muuttuja Dependent-ikkunaan ja yksi tai useampi riippumaton muuttuja Independent-ikkunaan. Painetaan OK. Model summary –taulukossa R Square –sarake kertoo miten monta prosenttia muuttuja selittää riippuvasta muuttujasta. Anova-taulukossa sarake F antaa F-testiarvon, sarake df vapausasteet (sekä rivin Regression että rivin Residual vapausasteet tarvitaan raportointiin), sarakkeesta Sig. selviää muuttujien välisen yhteyden tilastollinen merkitsevyys (kun arvo <.05, ero merkitsevä). Regressioanalyysiä voi käyttää riippuvan muuttujan ennustamiseen, Coefficients -taulukosta sarakkeesta B otetaan tekijät yhtälöön: (Constant) on yhtälön vakio ja muuttujien kertoimet saadaan saman sarakkeen alemmilta riveiltä, esim. riippuvan muuttujan arvo voi olla (y) = 1,134 + 0.213*x1 +0,186*x2 (x1 ja x2 ovat muuttujan arvot, esimerkiksi harjoituskerrat x1 = 10 ja harjoitusten kesto x2 = 10 minuuttia). Samaa muuttujaa testattaessa yksinään arvioidaan mallissa sen koko vaikutusta riippuvaan muuttujaan. Kun vaikuttavia muuttujia on useita, ei jokaisen muuttujan kokonaisvaikutusta voi enää lisätä malliin pelkästään yhteenlaskulla. Useita riippumattomia muuttujia käytettäessä täytyy erikseen huomioida käytettävä metodi Linear Regression -ikkunan valintaikkunassa Method. Useimmin käytetty metodi on Enter, josa ennustemuuttujat liitetään mailliin yhtäaikaa ja niiden merkitsevyys ilmoitetaan vain siltä osin kuin ne selittävät riippuvan muuttujan muutosta muiden muuttujien lisäksi, siis muutosta joka johtuu vain tästä nimenomaisesta muuttujasta. Enter mallissa pitäisi olla vähintään 15 tapausta per ennustemuuttuja. Hierarkisessa mallissa analysoidaan muuttujien vaikutus tietyssä järjestyksessä, jolloin voidaan poistaa esimerkiksi iän vaikutus jatkoanalyysista. Esimerkiksi kun Ikä-muuttuja on sijoitettu Independent(s) -ikkunaan painetaan Next ja tehdään jatkoanalyysi, jolloin iän vaikutus on eliminoitu tuloksista. Askeltavassa mallissa SPSS lisää ja poistaa ennustemuuttujia niiden tilastollisen merkitsevyyden perusteella kunnes mallin tilastollisesti merkitsevien muuttujat eivät enää vaihdu. Näin saadaan tiivis ja ehkä runsaita vaikutuksia kuvaava malli, mutta esimerkiksi Pallant (2007) kehottaa varovaisuuteen mallin käytössä. Askeltavassa mallissa riippumatonta muuttujaa kohden tulisi olla vähintään 40 tapausta. Raportoinnin esimerkki. |
Reggressioanalyysin muuttujien oletukset
|
Reggressioanalyysin on täytettävä runsaasti oletuksia. Analyysiin tarvitaan noin 15 tapausta per muuttuja. Muuttujat eivät saa olla singulaarisia (muuttujat eivät saa olla osia jostakin isommasta kokonaisuudesta, esim. kahdesta muuttujasta tehdystä summamuuttujasta). Riippumattomat muuttujat eivät saa olla multikollineaarisia (ne eivät saa korreloida liian voimakkaasti). Multikollineaarisuutta voi testata korrelaatiokertoimilla. Linear Regression –analyysissa Statistics –painikkeen alta ruksaa Part and partial correlations sekä Collinearity diagnostics. Reggressioanalyysissa oletetaan että muuttujien residuaalit (selittymättä jäänyt vaihtelu) ovat normaalisti jakautumisen lisäksi myös lineaarisia (suoraviivaisia), homoskedanttisia (selittymättä jääneen vaihtelun hajonta pitäisi olla yhtä suurta eri mittauskerroilla tai ryhmissä, esimerkiksi tuloerojen pitäisi olla yhtä suuria pieni- ja suurituloisilla) sekä toisistaan riippumattomia. Statistics –painikkeen alta ruksaa Casewise diagnostics > Continue. Plots –painikkeen alta valitse SDRESID> Y-laatikkoon ja ZPRED > X-laatikkoon (versiossa SPSS 16 paina Next), sekä ZPRED y-laatikkoon ja DEPENDNT x-laatikkoon, ruksaa Normal probability plot (SPSS 16 versiossa ruksaa molemmissa vaiheissa) > Continue. Save –painikkeen alta voidaan vielä ruksata Cook’s > Continue (residuaalit tallennetaan uusiksi muuttujiksi muuttujalistan loppuun) > OK. Correlate –taulukossa riippumattomien muuttujien tulisi korreloida jonkin verran muttei mielellään yli .7. Coefficients –taulukossa Tolerance –arvon ei tulisi olla alle .10 eikä VIF –arvon yli 10. Taulukossa Casewise Diagnostics voidaan arvioida suuresti havainnoista poikkeavien ennustearvojen (outliers) merkitystä mallissa. Taulukossa Residual Statistics tulisi Cook’s Distance –arvon olla alle yhden, muuten pitäisi tutkia datasta yli yhden menevät arvot (muuttuja COO_1) Normal P-P Plot –kuviossa pisteiden tulisi olla melko suorassa linjassa lävistäjän kanssa. Scatterplot –kuviossa soikion muotoinen pistepilvi pitäisi olla ryhmittynyt nollakohdan ympärille. |
Logistinen regressioanalyysi |
Kun tavallisessa regressioanalyysissä riippuvan muuttujan pitää olla suhdeasteikollinen, logistisessa regressiossa se voi olla nominaaliasteikollinen muuttuja, jossa on kaksi tai useampia luokkia. Riippumattomat muuttujat voivat olla nominaaliasteikollisia tai jatkuvia. Esimerkin riippuva muuttuja (Ei/on erityisen tuen tarvetta) on dikotominen, jolloin käytetään SPSS:ssä toimintoa Binary Logistic. Jos luokkia on useampi, käytetään vaihtoehtoa Multinomial Logistic. Otoskoko on vaikea määritettävä. Yleisesti ottaen usealuokkaiset muuttujat, vähän tapauksia sisältävät luokat ja selittävien muuttujien suurempi määrä lisäävät tarvetta suuremmalle otoskoolle. Minimimäärä tapauksia per riippumaton muuttuja on 10. Hierarkinen logistinen regressio edellyttää vähintään 20 tapausta ja askeltava (stepwise) logistinen regressio 50 tapausta per riippumaton muuttuja. Logistinen regressio ei tee varsinaisia oletuksia normaalisuudelle, lineaarisuudelle tai varianssien yhtäsuuruudelle, mutta vahvoja korrelaatioita ja poikkeavia arvoja täytyy pitää silmällä. Ensin riippuva muuttuja pitää muuttaa dikotomiseksi, jossa 0 = Ei erityisen tuen tarvetta ja 1 = On erityisen tuen tarve. Tämä tehdään Recode-toiminnolla. Selkeyden vuoksi myös kategoriset riippumattomat muuttujat on hyvä koodata dikotomiseksi ja jatkuvien riippumattomien muuttujien numeroiden kasvun pitää kuvata ominaisuuden lisääntymistä. Seuraavassa logistisessa regressiossa tutkitaan, mitkä lasten taidot eniten ennustavat lapsen erityisen tuen tarvetta. Analyze > Regression > Binary Logistic > Siirrä riippuva muuttuja (Ei/on
erityisen tuen tarve) Dependent-laatikkoon
> Siirrä sukupuoli ja motoriset, oppimisen, leikkimisen, sosiaaliset ja
osallistumistaidot Covariates-laatikkoon
> Klikkaa Categorical-laatikkoa > Siirrä kategorinen
riippumaton muuttuja (sukupuoli) Categorical Covariates –ikkunaan >
Valitse First >Klikkaa Change > Continue >Options
> Valitse Classification plots, Hosmer-Lemeshow Goodness of Fit, Casewise listing of Residuals ja CI for Exp(B)
> Continue > OK. Tarkista että Case processing Summary, Dependent Variable Encoding ja Categorical Variable Coding -taulukot ovat oikein. Otsikon Block 0 alla on analyysi ilman riippumattomien muuttujien vaikutusta. Otsikon Block 1 alla on regressiomallin testaus. Omnibus Tests of Model Coefficients antaa mallin tilastollisen merkityksen (arvon tulisi olla < ,05 ollakseen merkitsevä). Model Summary –taulukko kertoo mallin vaikutuksen, joka kuvaa kuinka monta prosenttia muuttujan vaihtelusta selittyy mallilla. Esimerkiksi Nagelkerke R Square arvo .371 tarkoittaa, että malli selittää 37,1 % muuttujan vaihtelusta. Hosmer-Lemeshow Goodness of Fit –taulukon Sig.-arvon tulisi olla yli ,05, jotta testi tukisi mallia. Classification Table kuvaa mallin ennusteen osuvuutta. Variables in the Equation –taulukko kuvaa yksittäisten riippumattomien muuttujien vaikutusta. Testiarvo on Wald-sarakkeessa ja til. merkitsevyys Sig.-sarakkeessa. Mitä pienempi Sig.arvo, sitä merkitsevämpi on sen vaikutus. B-sarakkeessa on tavallista regressioanalyysia vastaava regressiokerroin. Positiivinen kerroin lisää riippuvan muuttujan todennäköisyyttä, negatiivinen vähentää.Exp(B) sarake kertoo todennäköisyyden, jolla riippuva muuttuja saa arvon 1 (On erit.tuen tarve. Esimerkiksi Kielellisen tuen tarpeen (asteikko 1-5) arvon noustessa yhdellä, lapsen erityisen tarpeen todennäköisyys lisääntyy 2,149 kertaiseksi. Viimeinen Casewise List –taulukko kuvaa muuttujia, jotka eivät sovi malliin. Sarakkeen Zresid yli +2,5 tai alle -2,5 olevia tapauksia voi tarkastella lähemmin. Voit poistaa tapaukset, joilla on suurin ZResid-arvo ja tehdä Logistisen regression uudestaan. Raportoinnin esimerkki. |
Faktorianalyysi
(pääkomponenttianalyysi)
|
Faktorianalyysin tarkoituksena on usein liittää useita muuttujia muutamaksi kokoavaksi faktoriksi. Analyze > Data reduction > Factor analysis > Siirrä tarvittavat muuttujat oikeaan ikkunaan > Paina painiketta Descriptives > Valitse KMO and Bartlett’s test of spherity > Painikkeen extraction alla määritä eigenvaluen raja-arvo (usein 1) tai faktorien lukumäärä > Paina painiketta Rotation > Valitse rotatointi (esim. varimax) > paina painiketta options > Valitse sorted by size ja suppress absolute values less than (voit laittaa arvoksi esim. ,30) > continue > OK. KMO and Bartlett’s testin arvon on oltava riittävä (esim. yli .60). Communalities taulukosta nähdään, minkä verran faktorit selittävät kustakin muuttujasta. Total variance explained kertoo minkä verran faktorit selittävät koko aineiston hajonnasta. Component matrix -taulukko on rotatoimaton faktoritaulukko (usein vaikealukuinen). Rotated component matrix taulukko on usein varsinainen tulos. Faktoreille voi antaa nimet, johon vaikuttaa ainakin faktorilataus ja muuttujien ryhmittyminen (viimeisen taulukon voi yleensä jättää huomiotta). Faktorianalyysejä kannattaa yleensä tehdä useita, jotta löytyy helposti tulkittava tai teoreettisesti pätevä faktorointi. Muuttujien yhdistelmiä voi vaihdella, faktorien määrää voi vaihdella tai rotaatiomenetelmiä voi vaihdella. Faktoreista voi tehdä uusia muuttujia painikkeen Scores > Save as variables avulla. |
Diskriminanttianalyysi (DA)
|
Erottelu- eli diskriminanttianalyysiä kannattaa käyttää kun on olemassa jokin ryhmittelevä (laatueroasteikollinen) muuttuja, esimerkiksi opiskelijan kuvaama opiskelutyyli, ja halutaan selvittää miten muiden muuttujien (esim. opintomenestys, pääsykokeen pistemäärä) perusteella voidaan luokitella ihmisiä tietyn opiskelutyylin omaavaksi. Olemme siis kiinnostuneita siitä, mitkä tekijät vaikuttavat ihmisten kuulumiseen tiettyyn ryhmään. Diskriminanttianalyysi antaa myös kuvauksen siitä, miten hyvin ennustaminen onnistuu kyseessä olevassa aineistossa oikein luokiteltujen tapausten prosenttiosuuksina. |
Ryhmittelyanalyysi
(klusterianalyysi, Cluster analysis, CA)
|
Ryhmittelyanalyysissä ei ole etukäteen olemassa valmista ryhmittelyä kuten diskriminanttianalyysissa, vaan tarkoituksena on etsiä ryhmiä, joita voidaan kuvata muiden muuttujien avulla. Ryhmille voidaan myöhemmin tuloksia tulkitessa antaa niitä kuvaavat nimet. Klusterianalyysi muistuttaa eksploratiivista faktorianalyysia, mutta sen etuna faktorianalyysiin verrattuna on, että sitä voi käyttää myös tapausten (henkilöiden) luokittamiseen ja analyysin mukana saadaan dendogrammi, jolla saadaan esiin luokkien hierarkinen rakenne, joka faktorianalyysissa jää piiloon. |
Muuttujamuunnokset
|
Jos jakauma ei ole normaali, voidaan testaamiseen käyttää ei-parametrisiä menetelmiä (esim. Mann-Whitney tai Kruskal-Wallis). Jos kuitenkin halutaan käyttää parametristen testien edistyneitä ominaisuuksia tai monimuuttujamenetelmiä, voidaan kokeilla muuttuja-muunnoksia. Valitse Transform > Compute Variable. Pikkuikkunaan Target Variable luo uusi muuttuja esim. SqrDistance (jos otat neliöjuuren muuttujasta Distance). Ikkunasta Function Group valitse Arithmetic. Ikkunasta Functions and Special Variables valitse sopiva muuttujamuunnos: Jos muuttuja on oikealle vino (vasemmalla paljon arvoja ja oikealla pitkä häntä), muuttujaa voi suoristaa SQRT(Distance), LN(Distance), LG10(Distance), 1/(Distance) -valinnoilla (sitä enemmän muuttuja painottuu oikealle mitä myöhemmin funktio on yllä olevassa listassa mainittu). Jos muuttuja on vasemmalle vino, käytetään samoja funktioita, mutta kaava on SQRT(K - SqrDistance), LN(K - Distance), LG10(K - Distance), 1/(K - Distance), K on suurin arvo + 1. Nuolinäppäimellä funktio siirtyy Numeric Expression –ikkunaan. Muuttuja josta uudet arvot lasketaan, tulee sulkeiden sisään samoin kuin tarvittaessa K. Arvioi uudestaan jakauman normaalisuus. Jos muuttuja on liian huipukas, voi kokeilla muuttujan arvojen korottamista toiseen potenssiin. Muuttuja voidaan myös luokitella käsin uudestaan. Tällöin esimerkiksi kuusiluokkaisessa jakaumassa muuttujan arvot järjestetään suuruusjärjestykseen. Tällöin luokat koodataan uudelleen Recode-toiminnolla siten että luokkien lukumäärät ovat 2,5%, 13,5 %, 34 %, 34 %, 13,5 %, 2,5 %. |
Tulosten
raportoinnin esimerkkejä
|
APAn (2009) ohjeiden mukaan
tulosten raportoinnissa tulee ilmetä tilastollisten merkitsevyyksien lisäksi
efektikoko (effect size)
sekä suhdeasteikollisissa
muuttujissa luottamusväli. Englanninkielisissä raporteissa käytetään
desimaalipilkun sijasta desimalipistettä. APA suosittelee että tilastolliset
symbolit kursivoidaan (esim. N, M), paitsi kreikkalaiset aakkoset ja
lyhennykset (esim.α, β, GLM). Usean muuttujan luokkien
tunnusluvut: Keskiarvoja
raportoidessa raportoidaan aina myös keskihajonnat. Esimerkki: Lasten
läsnäolokuukausien keskiarvot (keskihajonnat suluissa) epäselvän orientaation
lapsilla olivat 16,53 (11,63), vetäytyvän orientaation lapsilla 21,31 (11,86)
ja mukautuvan orientaation lapsilla 25,71 (16,71) kuukautta. Luottamusväli: APAn ohjeiden mukaan
luottamusvälin raportoinnissa käytetään hakasulkeita: Lasten päiväkodissa
viettämien kuukausien keskiarvo oli 23,9 kuukautta, 95%
CI [22,9, 25,0]. Yhden otoksen Khii-neliön
testi: Poikia
oli aineistossa 438 ja tyttöjä 415. Khii-neliön yhden otoksen testin mukaan
tyttöjen ja poikien osuuden lukumäärien yhtäsuuruus aineistossa ei poikennut
tilastollisesti merkitsevästi toisistaan, Χ2(1, n = 853) = ,620,
p = ,451. Lukumäärät saadaan
ylemmästä taulukosta sarakkeesta Observed N.
Chi-toiseen jälkeen tuleva sulkeissa oleva 1 eli vapausasteet saa Test Statistics –taulukosta riviltä Chi-Square.
Luvun 853 saa ensimmäisen taulukon Total-riviltä.
Merkitsevyden (p)
saa Test Statistics –taulukon Asymp. Sig –riviltä. Khii-neliön testi: Khii-neliön muuttujien riippumattomuustestin (Exact test) mukaan opiskelijan asuinpaikan ja
sukupuolen välillä on tilastollisesti merkitsevä yhteys, Χ2 (3, N = 316) =
7,807, p = ,050,
Cramer’s V = ,176. (Vapausasteet (3)
löytyvät Chi-Square tests taulukon Exact Sig.
(2-sided) sarakkeen ylimmältä riviltä. N (316) löytyy
alariviltä N of Valid Cases.
Testiarvo (7,807) löytyy Value-sarakkeen ylimmältä riviltä.
Vaikutusta kuvaava Cramer’s V löytyy Symmetric Measures
–taulukon Value-sarakkeesta riviltä Cramer’s V.) Korrelaatio: Opiskelijoiden arviot taidoistaan tiedon jakajana ja
tapojen opettajana korreloivat positiivisesti, r =
,31, n = 320, p < ,0005. (Eli jos opiskelijat kokevat olevansa päteviä tiedon
jakajina, heillä on myös lievä taipumus kokea olevansa hyviä tapojen
opettajia. Yhteys on tilastollisesti erittäin merkitsevä, eli riski että HO
hylätään aiheetta, on alle 0,1 %.) Korrelaation arvo (r) saadaan riviltä Correlation
Coefficient, tapausten lukumäärä (N)
saadaan riviltä N, ja tilastollinen merkitsevyys riviltä Sig. (2-sided). Jos SPSS antaa erittäin
merkitsevän arvon ,000, suositellaan merkitsevyyttä
merkittäväksi < ,0005, koska SPSS pyöristää merkitsevyyden kolmen
desimaalin tarkkuudella. Pearsonin
tulomomenttikertoimen symboliksi APA (2009) suosittaa r- symbolia ja
Spearmanin järjestyskorrelaation symboliksi rs.) T-testi: Espoolaiset asuvat keskimäärin hiukan kauempana
yliopistolta (M = 19,6 km, SD = 6,6 km) kuin Vantaalaiset (M
= 17,8 km, SD = 3,9 km). Keskiarvojen erojen merkitsevyyden testaamiseksi
suoritettiin riippumattomien ryhmien t-testi, jonka mukaan matkojen
keskiarvojenero ei ole kuitenkaan tilastollisesti merkitsevä, t
=.1,47, df = 65,8, ja p =,146, 95% CI [-1,36, 3,08]. Myös paikkakunnan vaikutus
oli pieni, ?2 = ,002. On kuitenkin
huomattava että espoolaisten matkan hajonta on suurempi kuin vantaalaisten,
eli espoolaisten matka vaihtelee vantaalaisia enemmän. Levenen testin mukaan
espoolaisten ja vantaalaisten matkan varianssien ero on tilastollisesti merkitsevä ( F = 8,2, df = 76, p
= ,005). (Keskiarvot ja hajonnat saadaan Group Statistics
–taulukosta, t-arvo Indepenedent
Samples t-test –taulukosta
sarakkeesta t, tilastollinen merkitsevyys Sig.(2-tailed)
–sarakkeesta. Luottamusväli 95% CI saadaan
sarakkeista 95% Confidence Interval
of the Difference. Efektikoon
määrittämiseen ei SPSS tarjoa t-testin osalta tunnuslukua. Efektikoko (Eta squared, symboli η2) voidaan laskea kaavalla
(t^2)/ (t^2 + (n1 + n2 -2)), esimerkissä lasku on 1,47^2/(1,47^2 + (57 + 44 –
2)) = 0,02, joten vaikutus on hyvin pieni. Vaikutuksen suuruuden rajoiksi
kuvataan toisinaan ,01 (pieni), ,06 (kohtuullinen)
ja ,14 (suuri). Mann-Whitneyn testi (esimerkissä on käytetty
samaa aineistoa kuin t-testissä. Itse asiassa, koska opiskelijoiden matka on
ei-normaalisti jakautunut, Mann-Whitneyn testi on luotettavampi): Espoolaiset
asuvat keskimäärin hiukan kauempana yliopistolta (Md = 20 km, n
= 41) kuin vantaalaiset (Md = 18 km, n = 37). Mann-Whitney
mukaan erot espoolaisten ja vantaalaisten välillä eivät ole kuitenkaan
tilastollisesti merkitseviä, U(68) = 666, Z = -1,23, p
= ,341 r = ,014. (Raportoitavat luvut
saadaan Model Viewer-ikkunan
taulukosta riveiltä Mann-Whitney U (U), Standized
Test Statistic (Z)
ja Asymptotic Sig.
(2-sided test. Esimerkin luku 68 on
vapausasteet, joka on molempien ryhmien tapausten yhteenlaskettu määrä
vähennettynä kahdella (n1 +n2 - 2). SPSS antaa kuviossa ryhmien
välisen eron kuvauksena järjestysten keskiarvon. Mediaani on kuitenkin
havainnollisempi tunnusluku kuvaamaan kahden ryhmän eroa. Ryhmien mediaanit
saa esim Analyze
> Descriptive statistics
> Explore -toiminnolla, jolloin
ryhmittelevä muuttuja tulee siirtää Factor
List -ikkunaan. SPSS ei anna myöskään suoraan
tunnuslukua efektikokoa (r) kuvaamaan. Model
viewerin taulukon Standarized
Test Statistic -riviltä
saadaan Z-arvo. Z-arvoa voidaan käyttää r-arvon
laskemiseen kaavalla r = Z / neliöjuuri N, joka esimerkissä on 1,23 / SQRT
(78) = 0,14. Efekti on pieni käytettäessä rajoja ,1
pieni vaikutus, ,3 kohtalainen vaikutus ja ,5 suuri vaikutus.) Kruskal-Wallisin testi: Kruskal-Wallis -testin mukaan ryhmien välillä oli
tilastollisesti merkitsevä ero musiikin käytössä kasvatuksen apuna, Χ2(1,
79) = 4,805, p = ,028, η2= 0.06, siten että
järjestysten keskiarvo päiväkodeilla oli 37 (mediaani = 4) ja
perhepäivähoitajilla 49,47 (mediaani = 5) . Χ2arvon jälkeen
suluissa olevat vapausasteet saadaan Model Viewer -ikkunan taulukosta riviltä Degrees of freedom
(ryhmien lkm – 1, luku 79 on tapausten lukumäärä, joka saadaan taulukon
riviltä Total N). Testiarvo 4,805
saadaan riviltä Test Statistic.
p-arvo saadaan riviltä Asymptotic Sig. (2-sided test). Efektikokoa ei valitettavasti saa suoraan
SPSS-taulukosta, mutta ryhmien järjestysten keskiarvon raportointi usein
riittää. Järjestysten keskiarvon (Mean Rank) saa
siirtämällä hiiren kohdistin Model Viewer –ikkunan kuvion boxplot kuvioiden päälle. Mediaani on boxplot-kuvion
keskellä oleva musta viiva. Yksisuuntainen varianssianalyysi: Pyrittäessä selvittämään
opiskelijoiden asuinpaikan yhteyttä opiskelijoiden alan työkokemukseen
tehtiin yksisuuntainen riippumattomien ryhmien varianssianalyysi. Opiskelijat
oli jaettu neljään ryhmään asuinpaikan mukaan: helsinkiläiset (M =
25, SD = 52,9), espoolaiset (M = 37,5, SD = 63,7),
vantaalaiset (M = 48,4, SD = 67,8) ja muualla asuvat (M
= 53, SD = 76,4). Ryhmät erosivat tilastollisesti merkitsevästi
toisistaan, F (3, 316) = 3,84, p = ,01.
Asuinpaikan vaikutus oli kuitenkin pieni, η2 = ,036.
Post-hoc testi käyttäen Tukey HSD-korjausta
osoitti, että ryhmien välinen ero liittyi erityisesti eroihin helsinkiläisten
ja muualla asuvien opiskelijoiden työkokemukseen, p = ,017, 95 % CI (-52,4, -3,69). (Ryhmien keskiarvot ja
hajonnat saa Descriptive Statistics taulukosta. Kaikkien ryhmien eroa kuvaava
merkitsevyys saadaan Tests of Between-Subjects Effects -taulukosta
muuttuja-riviltä (esim. riviltä kunta). Vapausasteet (3, 316)
löytyvät sarakkeesta Df, riveiltä
kunta ja Error. Ryhmittelevän
muuttujan vaikutus (η2) saadaan sarakkeesta Partial
Eta Squared. Kahden ryhmän eroja kuvaavat
merkitsevyydet saadaan Multiple Comparisons -taulukosta Sig.
-sarakkeesta.). Yksisuuntainen toistettujen mittausten varianssianalyysi: Kortisoliarvojen
muuttumista testattiin toistettujen mittausten varianssianalyysilla. Kortisoliarvot pienenivät ensimmäisestä testistä (M =5,26, SD = 2,87) toiseen testiin (M
= 3,47, SD = 7,35). Ajalla oli
tilastollisesti merkitsevä vaikutus kortisoliarvoihin,
Wilksin Lambda =,927, F (2, 53) = 4,16, p = ,046, osittainen η2 (partial
eta squared) = ,073. Wilksin lambdan saa Multivariate Tests –taulukon Wilk’s Lambda –riviltä
sarakkeesta Value, F-arvon
sarakkeesta F, vapausasteet (tässä 2) sarakkeesta Error of, F:n arvon 4,16 sarakkeesta F, p-arvon
sarakkeesta Sig., eta-arvon
sarakkeesta Partial Eta Squared. Kaksisuuntainen varianssianalyysi: Pyrittäessä selvittämään
asuinpaikan ja iän yhteyttä opiskelijoiden alan työkokemukseen tehtiin
kaksisuuntainen varianssianalyysi. Iän osalta opiskelijat oli jaettu kahteen
ryhmään, 19-22 vuotiaat (M = 5.25, SD
= 5,77) sekä 23-55-vuotiaat (M = 56,62, SD = 73,7). Ryhmien
väliset matkojen erot olivat tilastollisesti merkitseviä, F (1, 303)
= 48,29, p = .002. Iän vaikutus oli myös
suuri, η2 = .918. Opiskelijat oli jaettu
neljään ryhmään asuinpaikan mukaan: helsinkiläisten (M = 25, SD
= 52,9), espoolaisten (M = 37,5, SD = 63,7), vantaalaisten
(M = 48,4, SD = 67,8) ja muualla asuvien (M = 53, SD
= 76,4) työkokemuksen keskiarvot eivät poikenneet tilastollisesti
merkitsevästi toisistaan, F (3, 303) = ,97,
p = ,510. Muuttujien yhdysvaikutus ei ollut tilastollisesti
merkitsevä, F (3, 303) = 1,07, p = ,363.
(Keskiarvot ja hajonnat saa Descriptive
Statistics -taulukosta. Iän eron merkitsevyys
saadaan Tests of Between-Subjects
Effects -taulukosta riviltä ikä sarakkeesta
Sig.. Vaikutusta kuvaava Partial Eta Squared
on taulukon viimeisessä sarakkeessa rivillä ikä.
Yhdysvaikutusta kuvaava merkitsevyys on sarakkeessa Sig.
rivillä ikä * kunta ja yhdysvaikutuksen vapausasteet löytyvät Df-sarakkeesta riviltä ikä*kunta ja Error. Tuloksessa ilmenee selitys
yksisuuntaisen varianssianalyysin tulokseen, jossa eri kuntalaisilla oli
eripituinen työkokemus. Kunta ei niinkään määritä ensisijaisesti
työkokemusta, vaan eri-ikäisillä opiskelijoilla on ennemminkin taipumus asua
eri paikkakunnalla. Regressioanalyysi: Työkokemuksen keston (M = 24.9 kk, SD =
51,6 kk) ja opiskelijan sosiaalisten taitojen opetustaidon (M = 4,0,
SD = .74) vaikutusta opiskelijan
osallistuvaan harjoittelijan rooliin (M = 3,3, SD = 1,1,) testattiin
lineaarisella regressioanalyysilla. Työkokemus ja sosiaalisten taitojen
opetustaito selittivät yhteensä 21,2 % osallistujan roolista, F (2,
525) = 70,67, p < ,0005. Työkokemuksen beta-arvo oli korkeampi (beta = .400, p < .0005) kuin sosiaalisten taitojen
opetustaidon (beta = .178, p < .0005).
On kuitenkin huomattava, että muuttuja työkokemus ei täyttänyt testin
oletuksia: jakauma oli vahvasti vasemmalle vino ja se sisälsi useita
ääriarvoja (joillakin opiskelijoilla oli yli 300 kuukautta työkokemusta).
Myöskään residuaalit eivät olleet normaalisti
jakautuneet. Tapausten suuren määrän takia (n = 527) muuttujien
ei-normaalisuus ei liene ratkaiseva asia. Tuloksen varmistamiseksi
tarkastettiin tulos vielä ei-parametrisellä Spearmanin järjestyskorrelaatiolla, r = .426, p < ,0005, jonka selitysaste oli myös
18,1 %, eli sama kuin ANOVA-testin tulos työkokemukselle. (Raportoitavat
luvut saadaan seuraavasti: Muuttujien keskiarvot ja hajonnat Descriptive Statistics
–taulukosta. Kaikkien muuttujien yhteenlasketun
selitysasteen saa Model Summary –taulukosta
sarakkeesta R square. Testiarvon (F) saa Anova-taulukon F-sarakkeesta,
vapausasteet (1, 525) saa Anova-taulukon df-sarakkeesta
riveiltä Regression ja Residual. Beta-kertoimet ja niiden merkitsevyydet
saa Coefficients-taulukosta sarakkeista Standardized Coefficients
(Beta) sekä sarakkeesta Sig.
Regressioanalyysin muuttujan oletuksista katso yllä. Samoin
korrelaatiokertoimesta katso yllä. Logistinen regressio: Logistista regressiota käytettiin
pyrittäessä arvioimaan, mitkä lasten taidot vaikuttaisivat eniten lapsen
määrittelyyn erityistä tukea tarvitsevaksi. Mallissa oli kuusi riippumatonta
muuttujaa (sukupuoli sekä osallistumisen, karkeamotoriikan, luovuuden, kielen
ja sosiaalisuuden taidot). Malli kokonaisuudessaan oli tilastollisesti
merkitsevä, Χ2(6, N = 823)
= 160,47, p <
,0005, mikä viittaa siihen että malli kykeni luokittelemaan lapsia
erityistä tukea tarvitseviin ja ei- erityistä tukea tarvitseviin. Mallin
selitysosuus vaihteli.17,7% (Cox
& Snell R Square) ja37,1% (Nagelkerke
R Square) välillä. Malli luokitteli oikein 29,3%
tapauksista. Sukupuoli (p =,084), luovuus
(p = ,174) ja osallistuminen (p = .055) eivät vaikuttaneet malliin
tilastollisesti merkitsevästi. Sen sijaan karkeamotorisen, kielen ja
sosiaalisen tuen tarve vaikuttivat kaikki malliin merkitsevästi, (p < ,0005).
Vahvin vaikuttaja lapsen luokittelussa erityisen tuen tarpeessa olijaksi oli
kielellisen tuen tarpeella, jonka todennäköisyyskerroin (odds
ratio) oli 2,149. Tämä tarkoittaa, että kun
kielellisen tuen tarve (asteikko 1 = ei tuen tarvetta, 5 = runsas tuen tarve)
kasvaa yhdellä yksiköllä, lapsen todennäköisyys tulla luokitelluksi erityistä
tukea tarvitsevaksi on yli kaksinkertainen. |