eksamenssett
.no
Tren målrettet
Ungdomsskole/VGS
Høyskole
Ressurser
Skolenyttig
Forum
eksamenssett
.no
Tren målrettet
Ungdomsskole/VGS
Høyskole
Ressurser
Skolenyttig
Forum
eksamenssett
.no
Tren målrettet
Ungdomsskole/VGS
Høyskole
Ressurser
Skolenyttig
Forum
STK1110
Cheat Sheet
Formler, begreper og oppsummering
Statistiske metoder og dataanalyse
eksamenssett.no
Formler
Estimering
•
θ
^
ML
:
∂
ℓ
(
θ
)
∂
θ
=
0
\hat{\theta}_{\text{ML}}: \frac{\partial \ell(\theta)}{\partial \theta} = 0
θ
^
ML
:
∂
θ
∂
ℓ
(
θ
)
=
0
•
I
(
θ
)
=
−
E
[
∂
2
ln
f
∂
θ
2
]
,
Var
(
θ
^
)
≈
1
n
I
(
θ
)
I(\theta) = -\text{E}\left[\frac{\partial^2 \ln f}{\partial \theta^2}\right], \quad \text{Var}(\hat{\theta}) \approx \frac{1}{nI(\theta)}
I
(
θ
)
=
−
E
[
∂
θ
2
∂
2
ln
f
]
,
Var
(
θ
^
)
≈
n
I
(
θ
)
1
•
KI:
θ
^
±
z
α
/
2
⋅
se
(
θ
^
)
\text{KI: } \hat{\theta} \pm z_{\alpha/2} \cdot \text{se}(\hat{\theta})
KI:
θ
^
±
z
α
/2
⋅
se
(
θ
^
)
Regresjon
•
β
^
1
=
∑
(
Y
i
−
Y
ˉ
)
(
x
i
−
x
ˉ
)
∑
(
x
i
−
x
ˉ
)
2
,
Var
(
β
^
1
)
=
σ
2
∑
(
x
i
−
x
ˉ
)
2
\hat{\beta}_1 = \frac{\sum(Y_i - \bar{Y})(x_i - \bar{x})}{\sum(x_i - \bar{x})^2}, \quad \text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum(x_i - \bar{x})^2}
β
^
1
=
∑
(
x
i
−
x
ˉ
)
2
∑
(
Y
i
−
Y
ˉ
)
(
x
i
−
x
ˉ
)
,
Var
(
β
^
1
)
=
∑
(
x
i
−
x
ˉ
)
2
σ
2
•
β
^
=
(
X
⊤
X
)
−
1
X
⊤
Y
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}
β
^
=
(
X
⊤
X
)
−
1
X
⊤
Y
•
R
2
=
1
−
SSE
/
SST
=
SSR
/
SST
R^2 = 1 - \text{SSE}/\text{SST} = \text{SSR}/\text{SST}
R
2
=
1
−
SSE
/
SST
=
SSR
/
SST
•
t
=
β
^
j
/
se
(
β
^
j
)
∼
t
n
−
p
−
1
t = \hat{\beta}_j / \text{se}(\hat{\beta}_j) \sim t_{n-p-1}
t
=
β
^
j
/
se
(
β
^
j
)
∼
t
n
−
p
−
1
To-utvalg
•
S
p
2
=
(
n
1
−
1
)
S
1
2
+
(
n
2
−
1
)
S
2
2
n
1
+
n
2
−
2
S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}
S
p
2
=
n
1
+
n
2
−
2
(
n
1
−
1
)
S
1
2
+
(
n
2
−
1
)
S
2
2
•
T
=
Y
ˉ
1
−
Y
ˉ
2
S
p
1
/
n
1
+
1
/
n
2
∼
t
n
1
+
n
2
−
2
T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1+1/n_2}} \sim t_{n_1+n_2-2}
T
=
S
p
1/
n
1
+
1/
n
2
Y
ˉ
1
−
Y
ˉ
2
∼
t
n
1
+
n
2
−
2
•
F
=
S
1
2
/
S
2
2
∼
F
n
1
−
1
,
n
2
−
1
F = S_1^2/S_2^2 \sim F_{n_1-1, n_2-1}
F
=
S
1
2
/
S
2
2
∼
F
n
1
−
1
,
n
2
−
1
Normalkvantiler
•
\(z_{0.025} = 1.960\) (95 % KI)
•
\(z_{0.005} = 2.576\) (99 % KI)
•
\(z_{0.05} = 1.645\) (90 % KI / ensidig 5 %)
Nøkkelformler per tema
Maximum likelihood-estimering (MLE)
•
L
(
θ
)
=
∏
i
=
1
n
f
(
X
i
;
θ
)
L(\theta) = \prod_{i=1}^n f(X_i; \theta)
L
(
θ
)
=
i
=
1
∏
n
f
(
X
i
;
θ
)
(Likelihood-funksjonen)
•
ℓ
(
θ
)
=
∑
i
=
1
n
ln
f
(
X
i
;
θ
)
\ell(\theta) = \sum_{i=1}^n \ln f(X_i; \theta)
ℓ
(
θ
)
=
i
=
1
∑
n
ln
f
(
X
i
;
θ
)
(Log-likelihood)
•
I
(
θ
)
=
−
E
[
∂
2
ln
f
(
X
;
θ
)
∂
θ
2
]
I(\theta) = -\text{E}\left[\frac{\partial^2 \ln f(X;\theta)}{\partial \theta^2}\right]
I
(
θ
)
=
−
E
[
∂
θ
2
∂
2
ln
f
(
X
;
θ
)
]
(Fisher-informasjon)
•
θ
^
ML
∼
approx
N
(
θ
,
1
n
I
(
θ
)
)
\hat{\theta}_{\text{ML}} \stackrel{\text{approx}}{\sim} N\left(\theta, \frac{1}{nI(\theta)}\right)
θ
^
ML
∼
approx
N
(
θ
,
n
I
(
θ
)
1
)
(Asymptotisk fordeling for MLE)
•
Var
(
θ
^
)
≥
1
n
I
(
θ
)
\text{Var}(\hat{\theta}) \geq \frac{1}{nI(\theta)}
Var
(
θ
^
)
≥
n
I
(
θ
)
1
(Cramer-Rao nedre grense)
Konfidensintervaller og hypotesetesting
•
θ
^
±
z
α
/
2
⋅
se
(
θ
^
)
\hat{\theta} \pm z_{\alpha/2} \cdot \text{se}(\hat{\theta})
θ
^
±
z
α
/2
⋅
se
(
θ
^
)
(Tilnaermet KI fra normalapproksimering)
•
T
=
Y
ˉ
1
−
Y
ˉ
2
S
p
1
/
n
1
+
1
/
n
2
∼
t
n
1
+
n
2
−
2
T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1 + 1/n_2}} \sim t_{n_1+n_2-2}
T
=
S
p
1/
n
1
+
1/
n
2
Y
ˉ
1
−
Y
ˉ
2
∼
t
n
1
+
n
2
−
2
(To-utvalgs t-test)
•
S
p
2
=
(
n
1
−
1
)
S
1
2
+
(
n
2
−
1
)
S
2
2
n
1
+
n
2
−
2
S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}
S
p
2
=
n
1
+
n
2
−
2
(
n
1
−
1
)
S
1
2
+
(
n
2
−
1
)
S
2
2
(Sammenslatt varians)
•
F
=
S
1
2
/
S
2
2
∼
F
n
1
−
1
,
n
2
−
1
F = S_1^2/S_2^2 \sim F_{n_1-1, n_2-1}
F
=
S
1
2
/
S
2
2
∼
F
n
1
−
1
,
n
2
−
1
(F-test for varianslikhet)
•
z
0.025
=
1.96
,
z
0.005
=
2.576
z_{0.025} = 1.96, \quad z_{0.005} = 2.576
z
0.025
=
1.96
,
z
0.005
=
2.576
(Vanlige normalkvantiler)
Enkel lineaer regresjon
•
Y
i
=
β
0
+
β
1
x
i
+
ε
i
,
ε
i
∼
N
(
0
,
σ
2
)
Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma^2)
Y
i
=
β
0
+
β
1
x
i
+
ε
i
,
ε
i
∼
N
(
0
,
σ
2
)
(Enkel lineaer regresjonsmodell)
•
β
^
1
=
∑
(
Y
i
−
Y
ˉ
)
(
x
i
−
x
ˉ
)
∑
(
x
i
−
x
ˉ
)
2
\hat{\beta}_1 = \frac{\sum (Y_i - \bar{Y})(x_i - \bar{x})}{\sum (x_i - \bar{x})^2}
β
^
1
=
∑
(
x
i
−
x
ˉ
)
2
∑
(
Y
i
−
Y
ˉ
)
(
x
i
−
x
ˉ
)
(MKM-estimator for stigningstall)
•
Var
(
β
^
1
)
=
σ
2
∑
(
x
i
−
x
ˉ
)
2
\text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum (x_i - \bar{x})^2}
Var
(
β
^
1
)
=
∑
(
x
i
−
x
ˉ
)
2
σ
2
(Varians til stigningstall-estimator)
•
R
2
=
1
−
SSE
SST
=
r
2
R^2 = 1 - \frac{\text{SSE}}{\text{SST}} = r^2
R
2
=
1
−
SST
SSE
=
r
2
(Forklart variasjon, = kvadrert korrelasjon for enkel regresjon)
•
t
=
β
^
1
se
(
β
^
1
)
∼
t
n
−
2
t = \frac{\hat{\beta}_1}{\text{se}(\hat{\beta}_1)} \sim t_{n-2}
t
=
se
(
β
^
1
)
β
^
1
∼
t
n
−
2
under \(H_0: \beta_1 = 0\)
Multippel lineaer regresjon
•
β
^
=
(
X
⊤
X
)
−
1
X
⊤
Y
\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}
β
^
=
(
X
⊤
X
)
−
1
X
⊤
Y
(MKM pa matriseform)
•
X
⊤
X
β
^
=
X
⊤
Y
\mathbf{X}^\top\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}^\top\mathbf{Y}
X
⊤
X
β
^
=
X
⊤
Y
(Normallikningene)
•
R
adj
2
=
1
−
SSE
/
(
n
−
p
−
1
)
SST
/
(
n
−
1
)
R^2_{\text{adj}} = 1 - \frac{\text{SSE}/(n-p-1)}{\text{SST}/(n-1)}
R
adj
2
=
1
−
SST
/
(
n
−
1
)
SSE
/
(
n
−
p
−
1
)
(Justert R-squared)
•
R
2
=
r
1
2
+
r
2
2
R^2 = r_1^2 + r_2^2
R
2
=
r
1
2
+
r
2
2
nar forklaringsvariablene er ukorrelerte og sentrerte
•
Betingelse for entydig losning: \(\mathbf{X}^\top\mathbf{X}\) ma vaere inverterbar (full rang)
Residualanalyse og modelldiagnostikk
•
e
i
=
Y
i
−
Y
^
i
e_i = Y_i - \hat{Y}_i
e
i
=
Y
i
−
Y
^
i
(Residual)
•
Y
^
i
=
β
^
0
+
β
^
1
x
i
\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i
Y
^
i
=
β
^
0
+
β
^
1
x
i
(Tilpasset/predikert verdi)
•
SSE
=
∑
e
i
2
=
∑
(
Y
i
−
Y
^
i
)
2
\text{SSE} = \sum e_i^2 = \sum (Y_i - \hat{Y}_i)^2
SSE
=
∑
e
i
2
=
∑
(
Y
i
−
Y
^
i
)
2
(Residualkvadratsummen)
•
σ
^
2
=
SSE
n
−
p
−
1
\hat{\sigma}^2 = \frac{\text{SSE}}{n - p - 1}
σ
^
2
=
n
−
p
−
1
SSE
(Estimert feilledds-varians)
•
Standardisert residual:
r
i
=
e
i
σ
^
1
−
h
i
i
r_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}
r
i
=
σ
^
1
−
h
ii
e
i
der \(h_{ii}\) er leverage
Modellsammenligning og multikollinearitet
•
F
=
(
SSE
liten
−
SSE
stor
)
/
(
p
2
−
p
1
)
SSE
stor
/
(
n
−
p
2
)
F = \frac{(\text{SSE}_{\text{liten}} - \text{SSE}_{\text{stor}})/(p_2 - p_1)}{\text{SSE}_{\text{stor}}/(n-p_2)}
F
=
SSE
stor
/
(
n
−
p
2
)
(
SSE
liten
−
SSE
stor
)
/
(
p
2
−
p
1
)
(F-test for nestede modeller)
•
Y
^
0
±
t
α
/
2
σ
^
1
+
x
0
⊤
(
X
⊤
X
)
−
1
x
0
\hat{Y}_0 \pm t_{\alpha/2} \hat{\sigma}\sqrt{1 + \mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}
Y
^
0
±
t
α
/2
σ
^
1
+
x
0
⊤
(
X
⊤
X
)
−
1
x
0
(Prediksjonsintervall)
•
Y
^
0
±
t
α
/
2
σ
^
x
0
⊤
(
X
⊤
X
)
−
1
x
0
\hat{Y}_0 \pm t_{\alpha/2} \hat{\sigma}\sqrt{\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}
Y
^
0
±
t
α
/2
σ
^
x
0
⊤
(
X
⊤
X
)
−
1
x
0
(Konfidensintervall for E(Y))
•
R
adj
2
=
1
−
SSE
/
(
n
−
p
−
1
)
SST
/
(
n
−
1
)
R^2_{\text{adj}} = 1 - \frac{\text{SSE}/(n-p-1)}{\text{SST}/(n-1)}
R
adj
2
=
1
−
SST
/
(
n
−
1
)
SSE
/
(
n
−
p
−
1
)
(Justert R^2 for modellsammenligning)
To-utvalgsmetoder og ikke-parametriske tester
•
T
=
Y
ˉ
1
−
Y
ˉ
2
S
p
1
/
n
1
+
1
/
n
2
∼
t
n
1
+
n
2
−
2
T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1 + 1/n_2}} \sim t_{n_1+n_2-2}
T
=
S
p
1/
n
1
+
1/
n
2
Y
ˉ
1
−
Y
ˉ
2
∼
t
n
1
+
n
2
−
2
(To-utvalgs t-test, lik varians)
•
S
p
2
=
(
n
1
−
1
)
S
1
2
+
(
n
2
−
1
)
S
2
2
n
1
+
n
2
−
2
S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}
S
p
2
=
n
1
+
n
2
−
2
(
n
1
−
1
)
S
1
2
+
(
n
2
−
1
)
S
2
2
(Sammenslatt varians)
•
F
=
S
1
2
/
S
2
2
∼
F
n
1
−
1
,
n
2
−
1
F = S_1^2/S_2^2 \sim F_{n_1-1,n_2-1}
F
=
S
1
2
/
S
2
2
∼
F
n
1
−
1
,
n
2
−
1
(F-test for varianslikhet)
•
Y
ˉ
1
−
Y
ˉ
2
±
t
α
/
2
,
n
1
+
n
2
−
2
S
p
1
/
n
1
+
1
/
n
2
\bar{Y}_1 - \bar{Y}_2 \pm t_{\alpha/2, n_1+n_2-2} S_p\sqrt{1/n_1+1/n_2}
Y
ˉ
1
−
Y
ˉ
2
±
t
α
/2
,
n
1
+
n
2
−
2
S
p
1/
n
1
+
1/
n
2
(KI for \(\mu_1 - \mu_2\))
Bayesiansk analyse
•
π
(
θ
∣
x
)
∝
L
(
θ
;
x
)
⋅
π
(
θ
)
\pi(\theta \mid \mathbf{x}) \propto L(\theta; \mathbf{x}) \cdot \pi(\theta)
π
(
θ
∣
x
)
∝
L
(
θ
;
x
)
⋅
π
(
θ
)
(Bayes' teorem for parametre)
•
Poisson + Gamma-prior: posterior er Gamma(\(\alpha_0 + \sum x_i, \frac{\beta_0}{n\beta_0 + 1}\))
•
E
(
θ
∣
x
)
≈
θ
^
ML
\text{E}(\theta \mid \mathbf{x}) \approx \hat{\theta}_{\text{ML}}
E
(
θ
∣
x
)
≈
θ
^
ML
nar \(n\) er stor (data dominerer)
•
Eksponensialfordeling = Gamma(1, \(\beta\)) (nyttig for a gjenkjenne konjugert par)
Regresjon som ramme for gruppetesting
•
β
^
0
=
Y
ˉ
,
β
^
1
=
Y
ˉ
2
−
Y
ˉ
1
\hat{\beta}_0 = \bar{Y}, \quad \hat{\beta}_1 = \bar{Y}_2 - \bar{Y}_1
β
^
0
=
Y
ˉ
,
β
^
1
=
Y
ˉ
2
−
Y
ˉ
1
(regresjon med \(\pm 0.5\)-koding)
•
X
⊤
X
=
diag
(
n
,
∑
x
1
i
2
,
∑
x
2
i
2
)
\mathbf{X}^\top\mathbf{X} = \text{diag}(n, \sum x_{1i}^2, \sum x_{2i}^2)
X
⊤
X
=
diag
(
n
,
∑
x
1
i
2
,
∑
x
2
i
2
)
(ortogonalt design)
•
R
2
=
r
1
2
+
r
2
2
R^2 = r_1^2 + r_2^2
R
2
=
r
1
2
+
r
2
2
(dekomponering ved ortogonale variabler)
•
Residual standard error i regresjon = \(S_p\) i to-utvalgs t-test
Vanlige feil å unngå
Maximum likelihood-estimering (MLE)
•
Glemme a sjekke at losningen er et maksimum (ikke minimum/sadelpunkt) -- sjekk fortegnet pa andrederiverten.
•
Forveksle Fisher-informasjon for en observasjon I(theta) med total Fisher-informasjon nI(theta).
•
Ved momentestimering: ikke nevne svakheten at ulike momenter gir ulike estimatorer -- dette var eksplisitt spurt i H2024.
•
Glemme a forenkle log-likelihood for du deriverer -- det gjor regningen mye enklere.
Konfidensintervaller og hypotesetesting
•
Bruke z-kvantiler nar du bor bruke t-kvantiler (ved sma utvalg eller estimert sigma).
•
Glemme at F-testen krever normalfordelte data -- sjekk QQ-plott for dette.
•
Ved tosidig test: glemme a doble P-verdien fra ensidig test, eller bruke feil halekritisk verdi.
•
Blande konfidensintervall og prediksjonsintervall -- prediksjonsintervallet er alltid bredere fordi det inkluderer sigma^2.
Enkel lineaer regresjon
•
Forveksle de to formene for beta1-hat: formen med (Yi - Ybar) brukes for forventningsretthet, formen med Yi(xi - xbar) brukes for varians.
•
Glemme at sum(xi - xbar) = 0 -- dette er nokkelidentiteten i forventningsretthet-beviset.
•
Tolke beta0 bokstavelig nar x = 0 er utenfor dataomradet (ekstrapolering).
•
Forveksle R^2 = 0.33 med 'darlig modell' -- i biologiske data er dette ofte akseptabelt.
Multippel lineaer regresjon
•
Tro at koeffisienter i multippel regresjon har samme tolkning som i enkel -- de gir effekten av xj nar de andre variablene holdes fast.
•
Glemme at R^2 alltid oker med flere variable, sa bruk justert R^2 for sammenligning.
•
Ved matriseformulering: glemme kolonnen med enere i X-matrisen for konstantleddet.
•
Forvente at koeffisienter er like i enkel og multippel regresjon -- de er bare like nar variablene er ukorrelerte.
Residualanalyse og modelldiagnostikk
•
Konkludere med 'darlig modell' basert pa sma avvik i QQ-plott -- perfekte QQ-plott finnes knapt i praksis.
•
Forveksle residualer med feilledd: feilledd epsilon_i er den sanne (ukjente) storrrelsen, residualer e_i er estimerte.
•
Glemme a kommentere alle tre plott nar oppgaven ber om residualanalyse -- ta hvert plott for seg.
•
Tolke monster i residualplott som 'tilfeldig' nar det er tydelige systematiske trekk (kurve, vifte).
Modellsammenligning og multikollinearitet
•
Konkludere at variable er uviktige fordi de er ikke-signifikante individuelt -- de kan vaere viktige samlet (multikollinearitetsfellen).
•
Forveksle prediksjonsintervall og konfidensintervall -- prediksjonsintervallet er ALLTID bredere.
•
Bruke R^2 alene for modellvalg -- den oker alltid med flere variable. Bruk justert R^2 eller F-test.
•
Glemme at prediksjoner utenfor dataomradet (ekstrapolering) er upaalitelige.
To-utvalgsmetoder og ikke-parametriske tester
•
Bruke t-test med lik varians uten a teste varianslikhet forst (F-test) -- dette var eksplisitt spurt i H2023.
•
Forveksle Wilcoxon signed rank (ett utvalg) med Wilcoxon rank-sum (to utvalg).
•
Tro at hoyere P-verdi i Wilcoxon betyr at dataene 'egentlig ikke er forskjellige' -- det betyr bare at testen har lavere styrke.
•
Glemme a oppgi frihetsgrader nar du bruker t- eller F-tabeller.
Bayesiansk analyse
•
Glemme at 'proposjonal med' betyr at du kan ignorere konstanter som ikke avhenger av theta.
•
Ikke gjenkjenne gamma-kjernen: lambda^{a-1} e^{-lambda/b} er Gamma(a, b). Oev pa a identifisere dette.
•
Forveksle prior-parametre med data -- prioren er det du tror FoR du ser data.
•
Tro at Bayesiansk analyse alltid gir andre svar enn MLE -- med mye data konvergerer de.
Regresjon som ramme for gruppetesting
•
Tro at regresjon og t-test gir ulike svar -- med riktig koding gir de IDENTISKE resultater.
•
Glemme at R^2-dekomponeringen kun gjelder nar variablene er ortogonale.
•
Forveksle 0/1-koding med +/-0.5-koding -- de gir forskjellig tolkning av beta0.
•
Glemme at fordelen med multippel regresjon er lavere sigma-hat, selv om koeffisientene er uendret.
Eksamenstips
Maximum likelihood-estimering (MLE)
•
MLE-utledning kommer pa nesten ALLE eksamener (H2023, H2024, H2025). Drill fremgangsmaaten.
•
Oppgaven sier ofte 'vis at MLE er ...' -- da trenger du bare a derivere log-likelihood og vise at resultatet stemmer.
•
Fisher-informasjon brukes til a finne asymptotisk varians, som igjen gir konfidensintervaller.
•
Momentestimatoren \(\bar{X} = E(X)\) er alltid et godt forste steg, men MLE er oftest mer effisient.
Konfidensintervaller og hypotesetesting
•
Les R-utskriften noyaktig: Estimate, Std. Error, t value og Pr(>|t|) gir deg alt du trenger.
•
Nar oppgaven ber om P-verdi via en tabell, bruk ulikheter for a angi et intervall P-verdien ligger i.
•
To-utvalgs t-test (H2023, H2025) og konfidensintervall fra MLE (H2024, H2025) er gjengangere.
•
Husk at KI for mu1-mu2 som ikke inneholder 0 betyr signifikant forskjell pa tilsvarende niva.
Enkel lineaer regresjon
•
Beviset for Var(beta1-hat) er spurt i H2024. Bruk formen med Yi(xi-xbar) og at Yi er uavhengige.
•
Nar R-utskrift gis: les av ALLE noykkeltall (estimater, SE, t, p, R^2, sigma-hat, frihetsgrader).
•
Husk at Residual standard error i R = sigma-hat, og frihetsgrader = n - (antall parametre).
•
For 95 % KI for beta1: beta1-hat +/- t_{alpha/2, n-2} * se(beta1-hat). Bruk oppgitt kvantiletabell.
Multippel lineaer regresjon
•
Matrise-utledningen (vis normallikningene, los pa matriseform) var eksplisitt spurt i H2024 og H2025.
•
Nar oppgaven gir bade enkel og multippel utskrift: sammenlign koeffisienter, R^2, og sigma-hat.
•
Ortogonale variable (sentrert + ukorrelert) er et yndet tema -- vet du dette, forenkles alt drastisk.
•
Husk: R^2 = r^2 gjelder KUN for enkel regresjon. For multippel regresjon er R^2 = korrelasjon(Y, Y-hat)^2.
Residualanalyse og modelldiagnostikk
•
Residualplott-tolkning var eksplisitt i H2024. Forvent slike oppgaver hvert ar.
•
Bruk systematisk sjekkliste: linearitet (Residuals vs Fitted), homoskedastisitet (Scale-Location), normalitet (QQ).
•
Nar oppgaven sier 'ignorer at to plott bruker standardiserte residualer' -- da er tolkningen lik.
•
Skill mellom 'modellen passer godt' og 'modellen fanger hovedtrekket men kan forbedres'.
Modellsammenligning og multikollinearitet
•
Multikollinearitet-paradokset (H2023) er et klassisk eksamenssporsmal. Forstaa mekanismen bak.
•
Nar to modeller gir naesten lik R^2, er den enklere modellen a foretrekke (parsimoniprinsippet).
•
Prediksjonsintervaller er brede pga. sigma^2 -- dette er viktig a kommentere nar oppgaven spor.
•
Sjekk alltid om ekstra variable gir meningsfull okning i justert R^2 og signifikant F-test.
To-utvalgsmetoder og ikke-parametriske tester
•
To-utvalgsoppgaven i H2023 er en klassisk eksamen-oppgave. Drill hele flyten: F-test -> t-test -> KI -> konklusjon.
•
Nar oppgaven gir QQ-plott: kommenter normalitet og knytt det til valg mellom t-test og Wilcoxon.
•
Husk at nar KI for mu1-mu2 ikke inneholder 0, er det konsistent med forkastning av H0.
•
Welch-frihetsgrader trenger du sjelden a beregne -- oppgaven gir dem ofte direkte.
Bayesiansk analyse
•
Bayesiansk analyse dukket opp pa H2025 for forste gang. Det kan bli en ny gjenganger.
•
Nokkelen er a multiplisere likelihood med prior og gjenkjenne den resulterende fordelingen.
•
Sammenlign alltid aposteriori forventning med MLE -- kommenter om de er naere (store n) eller ulike (sma n).
•
Eksponensialfordeling som prior for Poisson-parameter er et naturlig konjugert par -- drill dette.
Regresjon som ramme for gruppetesting
•
H2025 oppgave 2-3 testet hele flyten fra t-test via enkel regresjon til multippel regresjon. Forvent lignende.
•
Ortogonalitetsegenskapene (diagonal X'X, uendret beta, R^2-dekomponering) er sentrale -- forstaa alle tre.
•
Nar du sammenligner regresjon med t-test, sjekk at beta1 = gruppeforskjell og RSE = Sp.
•
Vis at du kan sette opp X-matrisen eksplisitt og beregne X'X for hand.
STK1110 Formelark | Eksamenssett