Luku 15

Viimeinen päivä lukujen 1-4 parissa ja huomisesta aloitan syventymisen lukuihin 5-6. Todennäköisyyksiin siis siirrytään ja olen todella innoissani. Se on mun lemppariaihe, vaikkakin lukion kurssia käydessä sain hieman harmaita hiuksia, kun huomasin, ettei se olekaan niin simppeliä, kun voisi ajatella.

Lueskelin yksi ilta blogia samasta aiheesta, josta itse kirjoitan. Tämä tyttö oli tatuoinut itseensä tilastollisen kaavan urakan päätteeksi. Mietin, että pitäisiköhän minunkin tehdä niin? Minulla ei ole tatuointeja, enkä ole koskaan oikeasti sellaista itselleni mieltänyt, mutta voin luvata, että mikäli pääsen ensiyrittämällä opiskelemaan, tatuoin itseeni jonkun kivan kaavan. Johonkin piiloon tietysti, koska en edelleen niin tatuoinneista välitä. Joku pieni ja kiva, esimerkiksi nilkkaan. En ole vielä päättänyt mikä, koska pääsykokeet ovat vielä kovin kaukana ja edelleen todennäköisyydet päästä kouluun ovat kovin pienet. Jospa se olisi sitten joku todennäköisyyksien kaava! 

Olen myös päättänyt, että jätän pääsykoekirjan tehtävät tässä vaiheessa tekemättä ja keskityn avoimen yliopiston harjoitustehtäviin. Näin minulla on rutkasti harjoitustehtäviä millä muistella opittua myöhemmin, koska onhan pääsykokeeseen vielä oikeasti 9 kuukautta. 

Aion myös vaihtaa harrastuspäivän perjantaihin torstaista, koska torstain tunnit alkavat kovin myöhään, enkä jaksa lähteä ajamaan sinne enää sellaiseen aikaan. 

Mutta joka tapauksessa, avaan vielä tänne luvun 4 keskeisimmät asiat:

 

Tutkimusaineiston kuvaileminen numeerisesti 

Tilastollisten tunnuslukujen avulla kuvaillaan ja tiivistetään tilastoaineistoa. Yksiulotteisten eli yhden muuttujan jakaumien kuvaamiseen käytettävät tunnusluvut voidaan jakaa sijaintilukuihin, hajontalukuihin ja muihin tunnuslukuihin. 

Sijaintiluvut

Keskiluvut

Kuvaa tyypillistä suuruutta, eli jakauman sijaintia x -akselilla. Tavoitteena on määritellä jakauman keskikohta tai kohta, jossa suurin osa havaintoarvoja sijaitsee. 

  • Moodi

Laatueroasteikollisilla muuttujien havainnoilla ei ole keskinäistä järjestystä, eli keskikohtaa ei voida laskea. Moodi, eli tyyppiarvo on yleisin arvo tai se luokka, jossa on suurin frekvenssi. Jos havaintoarvot ovat eri suuruisia, jakaumalle ei voida määritellä moodia.

  • Mediaani

Mediaani jakaa järjestetyn havaintoaineston kahteen osaan niin, että puolet ovat suurempia ja puolet pienempiä arvoja.  Järjestysasteikolla mitattuja arvoja on parillinen määrä, on mediaani jompi kumpi keskimmäisistä luvuista. Jos ovat hyvin kaukana toisistaan, voidaan jättää mediaani ilmoittamatta. Jos havaintoarvoja on parillinen määrä välimatka- tai suhdeasteilla, on mediaani kahden keskimmäisen luvun keskiarvo. 

Mediaani voidaan määritellä myös aineistosta, joka on luokiteltu, mutta mikäli luokittelematon aineisto on saatavilla, kannattaa määritellä mediaani sieltä. Mikäli sitä ei ole saatavilla, lasketaan seuraavasti:

mediaaniluokan todellinen alaraja summataan havaintojen määrä jaettuna kahdella, vähennetään mediaaniluokkaa edeltävän luokan kumulatiivinen frekvenssi, vastaus jaetaan mediaaniluokan frekvenssilla ja kerrotaan mediaaniluokan luokkavälillä. 

Mediaani voidaan laskea myös silloin, kuin luokittelu olisi tasavälistä, tai aineisto sisältäisi avoimia luokkia. 

  • Aritmeettinen keskiarvo

Keskiarvo kuvaa sitä, kuinka suuria havaintoarvot olisivat, jos mitattava ominaisuus jaettaisiin tasan kaikkien havaintoarvojen kesken. 
Vaikka keskiarvo ja mediaani periaatteessa mittaavat samaa asiaa, voivat kuitenkin erota toisistaan melkoisesti. Keskiarvoon vaikuttaa muista selvästi poikkeavat arvot, eikä keskiarvoa voida laskea avoimista luokista. Luokitellulla aineisolla keskiarvo on aina likiarvo, koska ei tiedetä tarkkaan, kuinka havaintoarvot jakautuvat kunkin luokan sisällä. Lasketaan niin, että havaintoarvot summataan ja jaetaan havaintojen määrällä. 

Muita sijaintilukuja

  • Fraktiilit

P% :n fraktiili jakaa tilastoaineiston kahteen osaan siten, että kyseessä on fraktiilia pienempiä havaintoarvoja on p%. Eniten käytettyjä fraktiileja on kvartiilit. Alakvartiili Q1 on 25% fraktiili ja yläkvartiili Q3 on 75% fraktiili. Mediaani puolestaan on jakauman 50% fraktiili. Näin aineisto jaetaan neljään osaan. Usein käytetään myös desiilejä, jotka ovat 10% ja 90% fraktiileja. Niiden avulla määritellään minkä suuruisia aineiston kaikkein suurimmat ja pienimmät havainnot tyypillisesti ovat. Frkatiilit voidaan määrittää myös välimatka- tai suhdeasteikoilla mitatuille muuttujille. 

Hajontaluvut

Hajontaluvuilla mitataan miten laajalle tai suppealle välille havaintoarvot sijoittuvat ja kuinka tiheästi havaintoarvot sijoittuvat keskiluvun ympärille. Hajonta on helpointa hahmottaa kuvaajista, joissa esitetään, kuinka monta minäkin suuruista havaitoarvoa aineistossa on. Hajontalukuja tarvitaan paitsi kuvaamaan ja havainnollistamaan havaintoaineiston homogeenisuutta tai heterogeenisuutta, myös tilastollisessa päätöksenteossa. 
Hajonnan käsite perustuu aina tavalla tai toisella havaintojen väliseen etäisyyteen, eikä niitä voida laskea laadullisille muuttujille. 

  • Variaatiosuhde

Laatueroasteikoilla mitattaville muuttujille ei voida suoraan määrittää varsinaisesti hajontalukuja. Tällöin on tyydyttävä eri havaintoluokkien frekvenssien vertailuun. Yleisimmin käytetty tunnusluku on variaatiosuhde v, joka saadaan, kun jaetaan moodiluokkaan kuulumattomien havaintojen määrä havaintojen kokonaismäärällä. 

v= N-Fm/N

Variaatiosuhde pienenee sitä enemmän, mitä useampi havainto kuuluu moodiluokkaan. 

  • Vaihteluväli

Kuvaa havaintoaineiston kokonaspeittoa, eli sitä, kuinka laajalta alueelta mittaustuloksia on saatu. Vaihteluvälissä ilmoitetaan aineiston pienin havainto ja suurin havainto ja lasketaan vähentämällä suurimmasta havainnosta pienin havainto. 

  • Kvartiiliväli

Kuvaa havaintoaineiston kesikimmäisen 50% sijoittumisen. Se määritellään alakvariilin Q1 ja yläkvariilin Q3 avulla. Kvartiilipoikkeama on puolet kvartiilivälin pituudesta ja lasketaan niin, että yläkvartiilista vähennetään alakvartiili ja jaetaan kahdella. 

  • Keskihajonta

Keskihajonta on yleisin hajontaluku välimatka- tai suhdeasteikoilla. Sitä käytetään yhdessä keskiarvon kanssa ja kuvaa havaintoarvojen keskimäärästä hajontaa, eli keskihajonta kuvaa täsmälleen sitä, kuinka kaukana havaintoarvot ovat keskimäärin jakauman keskiarvosta.

Otoskeskihajonta saadaan, kun lasketaan ensin jokaisen havainnon erotus keskiarvosta. Erotuksen neliöidään siten, etteivät positiiviset ja negatiiviset arvot kumoa toisiaan. Lopuksi lasketaan neliöityjen erotuksien summa ja se jaetaan n-1 (havaintoarvot yhteensä vähennettynä 1) ja otetaan lopputuloksesta neliöjuuri, jolla saadaan kumotuksia neliöinnin vaikutukset. 

Jos keskihajonta lasketaan koko populaatiosta, n-1 korvataan n. 

  • Varianssi

Varsianssiksi sanotaan keskihajonnan toista potenssia, tai keskihajontaa varsianssin neliöjuureksi. Varianssia ei tule käyttää empiirisissä tutkimuksissa, koska sama asia voidaan kuvata keskihajonnan kautta. 

  • Variaatiokerroin

Jos muuttuja on mitattu suhdeasteikolla, hajontalukuna voidaan käyttää variaatiokerrointa, joka on jakauman suhteellinen hajonta. Se lasketaan niin, että keskihajonta jaetaan keskiarvolla. 

Variaatiokertoimella ei ole varsinaista mittayksikköä, se vaan ilmoittaa kuinka monen keskiarvon päässä muuttujan arvot keskimäärin ovat keskiarvosta. Ilmoitetaan usein prosentteina (V * 100%), jolloin saadaan kuinka monta prosenttia muuttujan arvot keskimäärin poikkeavat keskiarvosta. 

  • Vinous ja huipukkuus

Muun muassa tilastollisen päätöksenteon yhteydessä käytettäviä yksiulotteisen jakauman tunnusluja ovat vinous g1 ja huipukkuus g2. Voidaan määritellä myös välimatka- ja suhdeasteikon muuttujille. Vinouden avulla voidaan arvioida, kuinka symmetrinen empiirinen jakauma on. Huipukkuus puolestaan mittaa jakauman huipun terävyyttä. 

 

Sijainti- ja hajontalukujen tulkitseminen

Erityisesti jatkuville muuttujille voidaan laskea usean tyyppisiä sijanti- ja havaintolukuja ja niitä on aiheellista tulkita yhdessä. Ensinnäkin sijainti- ja hajontaluvut kuvaavat jakauman eri ominaisuuksia, ja toiseksi erilaisilla sijainti- ja havaintoluvuilla saadaan erilaista tietoa jakaumasta. 
Eri sijaintilukujen keskinäisestä suhteesta voidaan tehdä myös päätelmiä jakauman muodosta. Jos jakauma on symmetrinen, moodi, mediaani ja keskiarvo ovat kaikki suunnilleen yhtä suuria. Jos taas yksihuippunen jakauma on oikealle vino, keskiarvo ja mediaani ovat moodia suurempia. Jos jakauma on vino vasemmalle, keskiarvo ja mediaani ovat moodia pienempiä. 

Symmetrisessä jakaumassa on samantekevää mitä tunnuslukua jakauman sijainnin kuvailemiseen käytetään. Tällöin kannattaa suosia keskiarvoa, koska se on ihmisille tutuin. Sen sijaan vinossa jakaumassa on oltava tarkka mitä tunnuslukua käyttää. 

 

Työ ja raha Opiskelu