TILASTOTIEDE

Tällä sivulla on lisämateriaalia Tilastotieteen käsikirjaan, jonka Tammi on julkaissut vuonna 2021. Teoksessa esitellään kattavasti keskeisimmät tilastolliset analyysimenetelmät alkaen aineiston keräämisestä ja kuvailemisesta sekä perusanalyyseista aina tilastollisiin monimuuttujamenetelmiin ja tilastolliseen luokitteluun asti. Tilastollisten menetelmien teoria esitetään havainnollisesti, joten aloittelijakin pääsee analysoimaan erilaisia aineistoja itsenäisesti. Havainnolliset laskuesimerkit helpottavat asioiden omaksumista.

R:n ja RStudion asentaminen

Kirjan ohjelmistoesimerkit perustuvat kattavaan R-ohjelmistoon. Avoimeen lähdekoodiin perustuvan R-ympäristön voi ladata ilmaiseksi koneelleen cran-palvelimelta, mistä se on saatavilla kaikille yleisimmille käyttöjärjestelmille (OSX, Linux, Windows). R:n käyttäminen pelkän komentotulkin avulla on hankalaa, joten on suositeltavaa ladata jokin graafinen käyttöympäristö tehostamaan R:n avulla työskentelyä. Näistä ylivoimaisesti paras on avoimeen lähdekoodiin perustuva RStudio, jonka voi ladata koneelleen ohjelmiston kotisivulta.

Kirjan R-paketti

Kaikki kirjan esimerkkiaineistot löytyvät R-paketista nummenmaa, joka kannattaa asentaa koneelleen ennen kuin esimerkkejä alkaa käydä läpi R-ympäristössä. Asentaminen onnistuu helpoiten kopioimalla ja sijoittamalla seuraavat komennot suoraan R-konsoliin:

install.packages("remotes")
library(remotes)
install_url("http://emotion.utu.fi/wp-content/uploads/2019/11/nummenmaa_1.0.tar.gz",dependencies=TRUE)


Tällöin R asentaa automaattisesti datapaketin sekä kirjassa käytettävät muut R-paketit. Tämän jälkeen kaikki kirjan esimerkit toimivat suoraan sellaisella koodilla mitä kirjaan on kirjoitettu, ja paketin voi aina ladata R-sessiossa käytettäväksi komennolla library(nummenmaa). Huomaa, että jokaisen luvun esimerkkikoodi on kirjoitettu siten, että tarvittavat paketit ladataan siinä esimerkissä, jossa niitä ensimmäistä kertaa tarvitaan. Lisäksi myöhemmät esimerkit saattavat käyttää aikaisemmissa muodostettuja olioita. Esimerkit kannattaa siis käydä läpi siinä järjestyksessä missä ne kussakin luvussa ovat. Jos alat käymään tietyn luvun esimerkkejä läpi keskeltä lukua, R saattaa antaa virheilmoituksen puuttuvasta paketista tai oliosta. Jokainen luku on kuitenkin oma itsenäinen kokonaisuutensa, eikä lukuja tarvi käydä läpi järjestyksessä.

Viimeisessä rakenneyhtälömalleja käsittelevässä luvussa käytetään lavaanPlot -nimistä pakettia, joka ei tällä hetkellä ole saatavilla CRAN-palvelimelta. Paketin voi kuitenkin asentaa suoraan githubista komennolla

install.packages("devtools")
library(devtools)
devtools::install_github("alishinski/lavaanPlot")

Koodipaketti

Koodin kopioiminen suoraan kirjasta on virhealtista ja aikaa vievää. Siksi kaikki esimerkkikoodit voi ladata omalle koneelleen erillisenä pakettina tästä linkistä. Jokaisen luvun koodiesimerkit on koottu omaksi R-tiedostokseen, jonka voi ajaa suoraan R-ympäristössä, kunhan kirjan R-paketti on ladattu ja asennettu koneelle. Esimerkkikoodia on myös helppo muunnella jolloin voi kätevästi kokeilla, kuinka erilaiset parametrit vaikuttavat funktioihin. Koodia voi myös suoraan kopioida omien projektien ja analyysien pohjaksi, jolloin perusanalyysien tekeminen helpottuu.

Datapaketti

Jos haluat käydä kirjan esimerkkejä läpi jonkin muun ohjelmiston (esimerkiksi STATA tai SPSS) kanssa, voit myös ladata pelkät aineistot tästä linkistä. Paketti sisältää kaikki esimerkkiaineistot csv-muotoisina tekstitiedostoina, jolloin ne on helppo ladata mihin tahansa tilasto-ohjelmistoon. Aineistokuvaukset ja muuttujamääritykset löytyvät kirjan liitteistä.

Errata

Kirjan ensimmäisessä painoksessa on valitettavasti muutamia painovirheitä, jotka on listattu tässä dokumentissa. Suuret kiitokset Auvo Rauhalalle joka huomasi useimmat näistä. Virheet korjataan toiseen painokseen.