Matematiikkaa ja R:ää

vesikattotilastoja (Studentin t-jakauma)

Matematiikkaa ja R:ää

vesikattotilastoja (Studentin t-jakauma)

William Sealy Gosset työskenteli Guinnessin panimolla Dublinissa ja tutki parhaiden ohralajikkeiden valintaa. “Vuonna 1908 Gosset julkaisi löytönsä brittiläisessä Biometrika -lehdessä, jonka yksi toimittaja oli Karl Pearson. Julkaisu tapahtui nimimerkillä “Student” eli opiskelija, mistä tulee myös testille vakiintunut nimi Studentin t-testi.” [Wikipedia]

Aristoteleen kantapäässä: “Kuplakuvio, hölynpölykorrelaatio ja oudokki – tilastotiede on kaikkialla” yle areena: oudokki hyvä uusiosana.

Peltikatteen elinikä - Studentin t-jakauma

Tutustutaan Studentin t-jakaumaan kuvitteellisen aineiston avulla. Peltikatevalmistaja väittää, että heidän valmistamien peltikatteiden elinikä asennettuna on vähintään 30 vuotta. Seitsemän omakotitalon satunnaisotoksesta saatiin seuraava aineisto (valmistajan peltikatteet kestivät tutkimusten mukaan ennen seuraavaa saneerausta):
7, 5, 12, 35, 44, 10, 11 vuotta.

Voidaanko todeta valmistajan väitteen olevan sopusoinnussa aineiston kanssa? Käytä 5% merkitsevyystasoa.

Ratkaistaan tehtävä seuraavalla tavalla:

Valitaan nollahypoteesiksi peltikatevalmistajan väite, eli

\(H_0: \mu \geq 30\)
\(H_1: \mu < 30\), eli vastahypoteesina asennettu vesikatto ei kestä valmistajan väittämää aikaa. \

\(\overline{x} = \Sigma_{i=1}^n{x_i} = 17.71429\)
\(s = \sqrt{\frac{\Sigma_{i=1}^n(x_i - \overline{x})^2}{(n - 1)}} = 15.29395\)

R:

# 2021-05-17-roof.R
peltikateika <- c(7, 5, 12, 35, 44, 10, 11)
mu = mean(peltikateika)
mu

n = length(peltikateika)
s = sqrt(
  (
    sum((peltikateika - mu)^2)
  ) / (n - 1)
)
s

Perusjoukon (kerättyyn dataan) perustuva keskihajonta ei ole tunnettu ja siksi käytetään t-testiä. Testisuureen arvoksi saadaan laskettua:

\[T = \frac{\overline{x} - \mu_0}{s/\sqrt{n}}\] \[T = \frac{17.71429 - 30}{15.29395 / \sqrt{7}} = -2.125347\]

Studentin t-jakauma (table), vapausasteella df = 6: \(T_{df=6, 0.05} = 1.943\). Jakauman symmetrisyyden perusteella vasemman hännän arvo on -1.943.

# R:
T <- (mu - mu0) / (s / sqrt(n))
T

# or test:
R_test <- t.test(peltikateika, alternative = "less")
R_test$statistic

p <- stats::pt(q = T, df = n - 1, lower.tail = TRUE)
p

\(p = 0.0388536048047322 < 0.05\) eli p-arvo on pienempi kuin merkitsevyystaso ja siten nollahypoteesi hylätään. Vastaavasti T-kriittistä arvoa tarkastelemalla: -2.125 < -1.943 Vesikatot eivät kestä 30 vuotta tämän aineiston perusteella.

# 2021-05-17-roof.R

# aineisto:
mu0 <- 30
merk <- 0.05

# data:
peltikateika <- c(7, 5, 12, 35, 44, 10, 11)


# otoskeskiarvo ja -keskihajonta:
mu <- mean(peltikateika)
mu
n <- length(peltikateika)
s <- sqrt(
  (
    sum((peltikateika - mu)^2)
  ) / (n - 1)
)
s

# Testisuureen arvo:
T <- (mu - mu0) / (s / sqrt(n))
T


R_test <- t.test(peltikateika, alternative = "less")
R_test$statistic


p <- stats::pt(q = T, df = n - 1, lower.tail = TRUE)
p

if (p <= merk) {
  print(
    paste("Nollahypoteesi hylätään - vesikatot eivät kestä", mu0, "vuotta tämän aineiston perusteella.") 
  )
} else {
  print(paste("Nolla hypoteesi jää voimaan", 100*merk, "prosentin merkitsevyyatasolla."))
}

print(paste("p-arvo:", p))  
  

Linkkejä

  • More talonendm statistics available here (2021-05-17-roof).
  • Student’s t-Test: R stats::t.test
  • Student’s t-test in R and by hand: how to compare two groups under different scenarios?
  • pt: “The function pt returns the value of the cumulative density function (cdf) of the Student t distribution given a certain random variable x and degrees of freedom df.”

i.03


Tämä julkaisu on tehty parhaan oman tietämyksemme ja ymmärtämyksemme pohjalta. Olemme tehneet kaiken voitavamme tietojen täsmällisyyden ja oikeellisuuden takaamiseksi.

Share: Twitter