STK1110

Cheat Sheet

Formler, begreper og oppsummering

Statistiske metoder og dataanalyse

eksamenssett.no

Formler

Estimering

• $\hat{\theta}_{\text{ML}}: \frac{\partial \ell(\theta)}{\partial \theta} = 0$
• $I(\theta) = -\text{E}\left[\frac{\partial^2 \ln f}{\partial \theta^2}\right], \quad \text{Var}(\hat{\theta}) \approx \frac{1}{nI(\theta)}$
• $\text{KI: } \hat{\theta} \pm z_{\alpha/2} \cdot \text{se}(\hat{\theta})$

Regresjon

• $\hat{\beta}_1 = \frac{\sum(Y_i - \bar{Y})(x_i - \bar{x})}{\sum(x_i - \bar{x})^2}, \quad \text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum(x_i - \bar{x})^2}$
• $\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}$
• $R^2 = 1 - \text{SSE}/\text{SST} = \text{SSR}/\text{SST}$
• $t = \hat{\beta}_j / \text{se}(\hat{\beta}_j) \sim t_{n-p-1}$

To-utvalg

• $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$
• $T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1+1/n_2}} \sim t_{n_1+n_2-2}$
• $F = S_1^2/S_2^2 \sim F_{n_1-1, n_2-1}$

Normalkvantiler

•$z_{0.025} = 1.960$ (95 % KI)
•$z_{0.005} = 2.576$ (99 % KI)
•$z_{0.05} = 1.645$ (90 % KI / ensidig 5 %)

Nøkkelformler per tema

Maximum likelihood-estimering (MLE)

• $L(\theta) = \prod_{i=1}^n f(X_i; \theta)$ (Likelihood-funksjonen)
• $\ell(\theta) = \sum_{i=1}^n \ln f(X_i; \theta)$ (Log-likelihood)
• $I(\theta) = -\text{E}\left[\frac{\partial^2 \ln f(X;\theta)}{\partial \theta^2}\right]$ (Fisher-informasjon)
• $\hat{\theta}_{\text{ML}} \stackrel{\text{approx}}{\sim} N\left(\theta, \frac{1}{nI(\theta)}\right)$ (Asymptotisk fordeling for MLE)
• $\text{Var}(\hat{\theta}) \geq \frac{1}{nI(\theta)}$ (Cramer-Rao nedre grense)

Konfidensintervaller og hypotesetesting

• $\hat{\theta} \pm z_{\alpha/2} \cdot \text{se}(\hat{\theta})$ (Tilnaermet KI fra normalapproksimering)
• $T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1 + 1/n_2}} \sim t_{n_1+n_2-2}$ (To-utvalgs t-test)
• $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$ (Sammenslatt varians)
• $F = S_1^2/S_2^2 \sim F_{n_1-1, n_2-1}$ (F-test for varianslikhet)
• $z_{0.025} = 1.96, \quad z_{0.005} = 2.576$ (Vanlige normalkvantiler)

Enkel lineaer regresjon

• $Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma^2)$ (Enkel lineaer regresjonsmodell)
• $\hat{\beta}_1 = \frac{\sum (Y_i - \bar{Y})(x_i - \bar{x})}{\sum (x_i - \bar{x})^2}$ (MKM-estimator for stigningstall)
• $\text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum (x_i - \bar{x})^2}$ (Varians til stigningstall-estimator)
• $R^2 = 1 - \frac{\text{SSE}}{\text{SST}} = r^2$ (Forklart variasjon, = kvadrert korrelasjon for enkel regresjon)
• $t = \frac{\hat{\beta}_1}{\text{se}(\hat{\beta}_1)} \sim t_{n-2}$ under $H_0: \beta_1 = 0$

Multippel lineaer regresjon

• $\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}$ (MKM pa matriseform)
• $\mathbf{X}^\top\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}^\top\mathbf{Y}$ (Normallikningene)
• $R^2_{\text{adj}} = 1 - \frac{\text{SSE}/(n-p-1)}{\text{SST}/(n-1)}$ (Justert R-squared)
• $R^2 = r_1^2 + r_2^2$ nar forklaringsvariablene er ukorrelerte og sentrerte
•Betingelse for entydig losning: $\mathbf{X}^\top\mathbf{X}$ ma vaere inverterbar (full rang)

Residualanalyse og modelldiagnostikk

• $e_i = Y_i - \hat{Y}_i$ (Residual)
• $\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$ (Tilpasset/predikert verdi)
• $\text{SSE} = \sum e_i^2 = \sum (Y_i - \hat{Y}_i)^2$ (Residualkvadratsummen)
• $\hat{\sigma}^2 = \frac{\text{SSE}}{n - p - 1}$ (Estimert feilledds-varians)
•Standardisert residual: $r_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}$ der $h_{ii}$ er leverage

Modellsammenligning og multikollinearitet

• $F = \frac{(\text{SSE}_{\text{liten}} - \text{SSE}_{\text{stor}})/(p_2 - p_1)}{\text{SSE}_{\text{stor}}/(n-p_2)}$ (F-test for nestede modeller)
• $\hat{Y}_0 \pm t_{\alpha/2} \hat{\sigma}\sqrt{1 + \mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}$ (Prediksjonsintervall)
• $\hat{Y}_0 \pm t_{\alpha/2} \hat{\sigma}\sqrt{\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}$ (Konfidensintervall for E(Y))
• $R^2_{\text{adj}} = 1 - \frac{\text{SSE}/(n-p-1)}{\text{SST}/(n-1)}$ (Justert R^2 for modellsammenligning)

To-utvalgsmetoder og ikke-parametriske tester

• $T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1 + 1/n_2}} \sim t_{n_1+n_2-2}$ (To-utvalgs t-test, lik varians)
• $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$ (Sammenslatt varians)
• $F = S_1^2/S_2^2 \sim F_{n_1-1,n_2-1}$ (F-test for varianslikhet)
• $\bar{Y}_1 - \bar{Y}_2 \pm t_{\alpha/2, n_1+n_2-2} S_p\sqrt{1/n_1+1/n_2}$ (KI for $\mu_1 - \mu_2$)

Bayesiansk analyse

• $\pi(\theta \mid \mathbf{x}) \propto L(\theta; \mathbf{x}) \cdot \pi(\theta)$ (Bayes' teorem for parametre)
•Poisson + Gamma-prior: posterior er Gamma($\alpha_0 + \sum x_i, \frac{\beta_0}{n\beta_0 + 1}$)
• $\text{E}(\theta \mid \mathbf{x}) \approx \hat{\theta}_{\text{ML}}$ nar $n$ er stor (data dominerer)
•Eksponensialfordeling = Gamma(1, $\beta$) (nyttig for a gjenkjenne konjugert par)

Regresjon som ramme for gruppetesting

• $\hat{\beta}_0 = \bar{Y}, \quad \hat{\beta}_1 = \bar{Y}_2 - \bar{Y}_1$ (regresjon med $\pm 0.5$-koding)
• $\mathbf{X}^\top\mathbf{X} = \text{diag}(n, \sum x_{1i}^2, \sum x_{2i}^2)$ (ortogonalt design)
• $R^2 = r_1^2 + r_2^2$ (dekomponering ved ortogonale variabler)
•Residual standard error i regresjon = $S_p$ i to-utvalgs t-test

Vanlige feil å unngå

Maximum likelihood-estimering (MLE)

•Glemme a sjekke at losningen er et maksimum (ikke minimum/sadelpunkt) -- sjekk fortegnet pa andrederiverten.
•Forveksle Fisher-informasjon for en observasjon I(theta) med total Fisher-informasjon nI(theta).
•Ved momentestimering: ikke nevne svakheten at ulike momenter gir ulike estimatorer -- dette var eksplisitt spurt i H2024.
•Glemme a forenkle log-likelihood for du deriverer -- det gjor regningen mye enklere.

Konfidensintervaller og hypotesetesting

•Bruke z-kvantiler nar du bor bruke t-kvantiler (ved sma utvalg eller estimert sigma).
•Glemme at F-testen krever normalfordelte data -- sjekk QQ-plott for dette.
•Ved tosidig test: glemme a doble P-verdien fra ensidig test, eller bruke feil halekritisk verdi.
•Blande konfidensintervall og prediksjonsintervall -- prediksjonsintervallet er alltid bredere fordi det inkluderer sigma^2.

Enkel lineaer regresjon

•Forveksle de to formene for beta1-hat: formen med (Yi - Ybar) brukes for forventningsretthet, formen med Yi(xi - xbar) brukes for varians.
•Glemme at sum(xi - xbar) = 0 -- dette er nokkelidentiteten i forventningsretthet-beviset.
•Tolke beta0 bokstavelig nar x = 0 er utenfor dataomradet (ekstrapolering).
•Forveksle R^2 = 0.33 med 'darlig modell' -- i biologiske data er dette ofte akseptabelt.

Multippel lineaer regresjon

•Tro at koeffisienter i multippel regresjon har samme tolkning som i enkel -- de gir effekten av xj nar de andre variablene holdes fast.
•Glemme at R^2 alltid oker med flere variable, sa bruk justert R^2 for sammenligning.
•Ved matriseformulering: glemme kolonnen med enere i X-matrisen for konstantleddet.
•Forvente at koeffisienter er like i enkel og multippel regresjon -- de er bare like nar variablene er ukorrelerte.

Residualanalyse og modelldiagnostikk

•Konkludere med 'darlig modell' basert pa sma avvik i QQ-plott -- perfekte QQ-plott finnes knapt i praksis.
•Forveksle residualer med feilledd: feilledd epsilon_i er den sanne (ukjente) storrrelsen, residualer e_i er estimerte.
•Glemme a kommentere alle tre plott nar oppgaven ber om residualanalyse -- ta hvert plott for seg.
•Tolke monster i residualplott som 'tilfeldig' nar det er tydelige systematiske trekk (kurve, vifte).

Modellsammenligning og multikollinearitet

•Konkludere at variable er uviktige fordi de er ikke-signifikante individuelt -- de kan vaere viktige samlet (multikollinearitetsfellen).
•Forveksle prediksjonsintervall og konfidensintervall -- prediksjonsintervallet er ALLTID bredere.
•Bruke R^2 alene for modellvalg -- den oker alltid med flere variable. Bruk justert R^2 eller F-test.
•Glemme at prediksjoner utenfor dataomradet (ekstrapolering) er upaalitelige.

To-utvalgsmetoder og ikke-parametriske tester

•Bruke t-test med lik varians uten a teste varianslikhet forst (F-test) -- dette var eksplisitt spurt i H2023.
•Forveksle Wilcoxon signed rank (ett utvalg) med Wilcoxon rank-sum (to utvalg).
•Tro at hoyere P-verdi i Wilcoxon betyr at dataene 'egentlig ikke er forskjellige' -- det betyr bare at testen har lavere styrke.
•Glemme a oppgi frihetsgrader nar du bruker t- eller F-tabeller.

Bayesiansk analyse

•Glemme at 'proposjonal med' betyr at du kan ignorere konstanter som ikke avhenger av theta.
•Ikke gjenkjenne gamma-kjernen: lambda^{a-1} e^{-lambda/b} er Gamma(a, b). Oev pa a identifisere dette.
•Forveksle prior-parametre med data -- prioren er det du tror FoR du ser data.
•Tro at Bayesiansk analyse alltid gir andre svar enn MLE -- med mye data konvergerer de.

Regresjon som ramme for gruppetesting

•Tro at regresjon og t-test gir ulike svar -- med riktig koding gir de IDENTISKE resultater.
•Glemme at R^2-dekomponeringen kun gjelder nar variablene er ortogonale.
•Forveksle 0/1-koding med +/-0.5-koding -- de gir forskjellig tolkning av beta0.
•Glemme at fordelen med multippel regresjon er lavere sigma-hat, selv om koeffisientene er uendret.

Eksamenstips

Maximum likelihood-estimering (MLE)

•MLE-utledning kommer pa nesten ALLE eksamener (H2023, H2024, H2025). Drill fremgangsmaaten.
•Oppgaven sier ofte 'vis at MLE er ...' -- da trenger du bare a derivere log-likelihood og vise at resultatet stemmer.
•Fisher-informasjon brukes til a finne asymptotisk varians, som igjen gir konfidensintervaller.
•Momentestimatoren $\bar{X} = E(X)$ er alltid et godt forste steg, men MLE er oftest mer effisient.

Konfidensintervaller og hypotesetesting

•Les R-utskriften noyaktig: Estimate, Std. Error, t value og Pr(>|t|) gir deg alt du trenger.
•Nar oppgaven ber om P-verdi via en tabell, bruk ulikheter for a angi et intervall P-verdien ligger i.
•To-utvalgs t-test (H2023, H2025) og konfidensintervall fra MLE (H2024, H2025) er gjengangere.
•Husk at KI for mu1-mu2 som ikke inneholder 0 betyr signifikant forskjell pa tilsvarende niva.

Enkel lineaer regresjon

•Beviset for Var(beta1-hat) er spurt i H2024. Bruk formen med Yi(xi-xbar) og at Yi er uavhengige.
•Nar R-utskrift gis: les av ALLE noykkeltall (estimater, SE, t, p, R^2, sigma-hat, frihetsgrader).
•Husk at Residual standard error i R = sigma-hat, og frihetsgrader = n - (antall parametre).
•For 95 % KI for beta1: beta1-hat +/- t_{alpha/2, n-2} * se(beta1-hat). Bruk oppgitt kvantiletabell.

Multippel lineaer regresjon

•Matrise-utledningen (vis normallikningene, los pa matriseform) var eksplisitt spurt i H2024 og H2025.
•Nar oppgaven gir bade enkel og multippel utskrift: sammenlign koeffisienter, R^2, og sigma-hat.
•Ortogonale variable (sentrert + ukorrelert) er et yndet tema -- vet du dette, forenkles alt drastisk.
•Husk: R^2 = r^2 gjelder KUN for enkel regresjon. For multippel regresjon er R^2 = korrelasjon(Y, Y-hat)^2.

Residualanalyse og modelldiagnostikk

•Residualplott-tolkning var eksplisitt i H2024. Forvent slike oppgaver hvert ar.
•Bruk systematisk sjekkliste: linearitet (Residuals vs Fitted), homoskedastisitet (Scale-Location), normalitet (QQ).
•Nar oppgaven sier 'ignorer at to plott bruker standardiserte residualer' -- da er tolkningen lik.
•Skill mellom 'modellen passer godt' og 'modellen fanger hovedtrekket men kan forbedres'.

Modellsammenligning og multikollinearitet

•Multikollinearitet-paradokset (H2023) er et klassisk eksamenssporsmal. Forstaa mekanismen bak.
•Nar to modeller gir naesten lik R^2, er den enklere modellen a foretrekke (parsimoniprinsippet).
•Prediksjonsintervaller er brede pga. sigma^2 -- dette er viktig a kommentere nar oppgaven spor.
•Sjekk alltid om ekstra variable gir meningsfull okning i justert R^2 og signifikant F-test.

To-utvalgsmetoder og ikke-parametriske tester

•To-utvalgsoppgaven i H2023 er en klassisk eksamen-oppgave. Drill hele flyten: F-test -> t-test -> KI -> konklusjon.
•Nar oppgaven gir QQ-plott: kommenter normalitet og knytt det til valg mellom t-test og Wilcoxon.
•Husk at nar KI for mu1-mu2 ikke inneholder 0, er det konsistent med forkastning av H0.
•Welch-frihetsgrader trenger du sjelden a beregne -- oppgaven gir dem ofte direkte.

Bayesiansk analyse

•Bayesiansk analyse dukket opp pa H2025 for forste gang. Det kan bli en ny gjenganger.
•Nokkelen er a multiplisere likelihood med prior og gjenkjenne den resulterende fordelingen.
•Sammenlign alltid aposteriori forventning med MLE -- kommenter om de er naere (store n) eller ulike (sma n).
•Eksponensialfordeling som prior for Poisson-parameter er et naturlig konjugert par -- drill dette.

Regresjon som ramme for gruppetesting

•H2025 oppgave 2-3 testet hele flyten fra t-test via enkel regresjon til multippel regresjon. Forvent lignende.
•Ortogonalitetsegenskapene (diagonal X'X, uendret beta, R^2-dekomponering) er sentrale -- forstaa alle tre.
•Nar du sammenligner regresjon med t-test, sjekk at beta1 = gruppeforskjell og RSE = Sp.
•Vis at du kan sette opp X-matrisen eksplisitt og beregne X'X for hand.

STK1110

Cheat Sheet

Formler, begreper og oppsummering

Statistiske metoder og dataanalyse

eksamenssett.no

Formler

Estimering

• $\hat{\theta}_{\text{ML}}: \frac{\partial \ell(\theta)}{\partial \theta} = 0$
• $I(\theta) = -\text{E}\left[\frac{\partial^2 \ln f}{\partial \theta^2}\right], \quad \text{Var}(\hat{\theta}) \approx \frac{1}{nI(\theta)}$
• $\text{KI: } \hat{\theta} \pm z_{\alpha/2} \cdot \text{se}(\hat{\theta})$

Regresjon

• $\hat{\beta}_1 = \frac{\sum(Y_i - \bar{Y})(x_i - \bar{x})}{\sum(x_i - \bar{x})^2}, \quad \text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum(x_i - \bar{x})^2}$
• $\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}$
• $R^2 = 1 - \text{SSE}/\text{SST} = \text{SSR}/\text{SST}$
• $t = \hat{\beta}_j / \text{se}(\hat{\beta}_j) \sim t_{n-p-1}$

To-utvalg

• $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$
• $T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1+1/n_2}} \sim t_{n_1+n_2-2}$
• $F = S_1^2/S_2^2 \sim F_{n_1-1, n_2-1}$

Normalkvantiler

•$z_{0.025} = 1.960$ (95 % KI)
•$z_{0.005} = 2.576$ (99 % KI)
•$z_{0.05} = 1.645$ (90 % KI / ensidig 5 %)

Nøkkelformler per tema

Maximum likelihood-estimering (MLE)

• $L(\theta) = \prod_{i=1}^n f(X_i; \theta)$ (Likelihood-funksjonen)
• $\ell(\theta) = \sum_{i=1}^n \ln f(X_i; \theta)$ (Log-likelihood)
• $I(\theta) = -\text{E}\left[\frac{\partial^2 \ln f(X;\theta)}{\partial \theta^2}\right]$ (Fisher-informasjon)
• $\hat{\theta}_{\text{ML}} \stackrel{\text{approx}}{\sim} N\left(\theta, \frac{1}{nI(\theta)}\right)$ (Asymptotisk fordeling for MLE)
• $\text{Var}(\hat{\theta}) \geq \frac{1}{nI(\theta)}$ (Cramer-Rao nedre grense)

Konfidensintervaller og hypotesetesting

• $\hat{\theta} \pm z_{\alpha/2} \cdot \text{se}(\hat{\theta})$ (Tilnaermet KI fra normalapproksimering)
• $T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1 + 1/n_2}} \sim t_{n_1+n_2-2}$ (To-utvalgs t-test)
• $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$ (Sammenslatt varians)
• $F = S_1^2/S_2^2 \sim F_{n_1-1, n_2-1}$ (F-test for varianslikhet)
• $z_{0.025} = 1.96, \quad z_{0.005} = 2.576$ (Vanlige normalkvantiler)

Enkel lineaer regresjon

• $Y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma^2)$ (Enkel lineaer regresjonsmodell)
• $\hat{\beta}_1 = \frac{\sum (Y_i - \bar{Y})(x_i - \bar{x})}{\sum (x_i - \bar{x})^2}$ (MKM-estimator for stigningstall)
• $\text{Var}(\hat{\beta}_1) = \frac{\sigma^2}{\sum (x_i - \bar{x})^2}$ (Varians til stigningstall-estimator)
• $R^2 = 1 - \frac{\text{SSE}}{\text{SST}} = r^2$ (Forklart variasjon, = kvadrert korrelasjon for enkel regresjon)
• $t = \frac{\hat{\beta}_1}{\text{se}(\hat{\beta}_1)} \sim t_{n-2}$ under $H_0: \beta_1 = 0$

Multippel lineaer regresjon

• $\hat{\boldsymbol{\beta}} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{Y}$ (MKM pa matriseform)
• $\mathbf{X}^\top\mathbf{X}\hat{\boldsymbol{\beta}} = \mathbf{X}^\top\mathbf{Y}$ (Normallikningene)
• $R^2_{\text{adj}} = 1 - \frac{\text{SSE}/(n-p-1)}{\text{SST}/(n-1)}$ (Justert R-squared)
• $R^2 = r_1^2 + r_2^2$ nar forklaringsvariablene er ukorrelerte og sentrerte
•Betingelse for entydig losning: $\mathbf{X}^\top\mathbf{X}$ ma vaere inverterbar (full rang)

Residualanalyse og modelldiagnostikk

• $e_i = Y_i - \hat{Y}_i$ (Residual)
• $\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i$ (Tilpasset/predikert verdi)
• $\text{SSE} = \sum e_i^2 = \sum (Y_i - \hat{Y}_i)^2$ (Residualkvadratsummen)
• $\hat{\sigma}^2 = \frac{\text{SSE}}{n - p - 1}$ (Estimert feilledds-varians)
•Standardisert residual: $r_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}}$ der $h_{ii}$ er leverage

Modellsammenligning og multikollinearitet

• $F = \frac{(\text{SSE}_{\text{liten}} - \text{SSE}_{\text{stor}})/(p_2 - p_1)}{\text{SSE}_{\text{stor}}/(n-p_2)}$ (F-test for nestede modeller)
• $\hat{Y}_0 \pm t_{\alpha/2} \hat{\sigma}\sqrt{1 + \mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}$ (Prediksjonsintervall)
• $\hat{Y}_0 \pm t_{\alpha/2} \hat{\sigma}\sqrt{\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}$ (Konfidensintervall for E(Y))
• $R^2_{\text{adj}} = 1 - \frac{\text{SSE}/(n-p-1)}{\text{SST}/(n-1)}$ (Justert R^2 for modellsammenligning)

To-utvalgsmetoder og ikke-parametriske tester

• $T = \frac{\bar{Y}_1 - \bar{Y}_2}{S_p\sqrt{1/n_1 + 1/n_2}} \sim t_{n_1+n_2-2}$ (To-utvalgs t-test, lik varians)
• $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}$ (Sammenslatt varians)
• $F = S_1^2/S_2^2 \sim F_{n_1-1,n_2-1}$ (F-test for varianslikhet)
• $\bar{Y}_1 - \bar{Y}_2 \pm t_{\alpha/2, n_1+n_2-2} S_p\sqrt{1/n_1+1/n_2}$ (KI for $\mu_1 - \mu_2$)

Bayesiansk analyse

• $\pi(\theta \mid \mathbf{x}) \propto L(\theta; \mathbf{x}) \cdot \pi(\theta)$ (Bayes' teorem for parametre)
•Poisson + Gamma-prior: posterior er Gamma($\alpha_0 + \sum x_i, \frac{\beta_0}{n\beta_0 + 1}$)
• $\text{E}(\theta \mid \mathbf{x}) \approx \hat{\theta}_{\text{ML}}$ nar $n$ er stor (data dominerer)
•Eksponensialfordeling = Gamma(1, $\beta$) (nyttig for a gjenkjenne konjugert par)

Regresjon som ramme for gruppetesting

• $\hat{\beta}_0 = \bar{Y}, \quad \hat{\beta}_1 = \bar{Y}_2 - \bar{Y}_1$ (regresjon med $\pm 0.5$-koding)
• $\mathbf{X}^\top\mathbf{X} = \text{diag}(n, \sum x_{1i}^2, \sum x_{2i}^2)$ (ortogonalt design)
• $R^2 = r_1^2 + r_2^2$ (dekomponering ved ortogonale variabler)
•Residual standard error i regresjon = $S_p$ i to-utvalgs t-test

Vanlige feil å unngå

Maximum likelihood-estimering (MLE)

•Glemme a sjekke at losningen er et maksimum (ikke minimum/sadelpunkt) -- sjekk fortegnet pa andrederiverten.
•Forveksle Fisher-informasjon for en observasjon I(theta) med total Fisher-informasjon nI(theta).
•Ved momentestimering: ikke nevne svakheten at ulike momenter gir ulike estimatorer -- dette var eksplisitt spurt i H2024.
•Glemme a forenkle log-likelihood for du deriverer -- det gjor regningen mye enklere.

Konfidensintervaller og hypotesetesting

•Bruke z-kvantiler nar du bor bruke t-kvantiler (ved sma utvalg eller estimert sigma).
•Glemme at F-testen krever normalfordelte data -- sjekk QQ-plott for dette.
•Ved tosidig test: glemme a doble P-verdien fra ensidig test, eller bruke feil halekritisk verdi.
•Blande konfidensintervall og prediksjonsintervall -- prediksjonsintervallet er alltid bredere fordi det inkluderer sigma^2.

Enkel lineaer regresjon

•Forveksle de to formene for beta1-hat: formen med (Yi - Ybar) brukes for forventningsretthet, formen med Yi(xi - xbar) brukes for varians.
•Glemme at sum(xi - xbar) = 0 -- dette er nokkelidentiteten i forventningsretthet-beviset.
•Tolke beta0 bokstavelig nar x = 0 er utenfor dataomradet (ekstrapolering).
•Forveksle R^2 = 0.33 med 'darlig modell' -- i biologiske data er dette ofte akseptabelt.

Multippel lineaer regresjon

•Tro at koeffisienter i multippel regresjon har samme tolkning som i enkel -- de gir effekten av xj nar de andre variablene holdes fast.
•Glemme at R^2 alltid oker med flere variable, sa bruk justert R^2 for sammenligning.
•Ved matriseformulering: glemme kolonnen med enere i X-matrisen for konstantleddet.
•Forvente at koeffisienter er like i enkel og multippel regresjon -- de er bare like nar variablene er ukorrelerte.

Residualanalyse og modelldiagnostikk

•Konkludere med 'darlig modell' basert pa sma avvik i QQ-plott -- perfekte QQ-plott finnes knapt i praksis.
•Forveksle residualer med feilledd: feilledd epsilon_i er den sanne (ukjente) storrrelsen, residualer e_i er estimerte.
•Glemme a kommentere alle tre plott nar oppgaven ber om residualanalyse -- ta hvert plott for seg.
•Tolke monster i residualplott som 'tilfeldig' nar det er tydelige systematiske trekk (kurve, vifte).

Modellsammenligning og multikollinearitet

•Konkludere at variable er uviktige fordi de er ikke-signifikante individuelt -- de kan vaere viktige samlet (multikollinearitetsfellen).
•Forveksle prediksjonsintervall og konfidensintervall -- prediksjonsintervallet er ALLTID bredere.
•Bruke R^2 alene for modellvalg -- den oker alltid med flere variable. Bruk justert R^2 eller F-test.
•Glemme at prediksjoner utenfor dataomradet (ekstrapolering) er upaalitelige.

To-utvalgsmetoder og ikke-parametriske tester

•Bruke t-test med lik varians uten a teste varianslikhet forst (F-test) -- dette var eksplisitt spurt i H2023.
•Forveksle Wilcoxon signed rank (ett utvalg) med Wilcoxon rank-sum (to utvalg).
•Tro at hoyere P-verdi i Wilcoxon betyr at dataene 'egentlig ikke er forskjellige' -- det betyr bare at testen har lavere styrke.
•Glemme a oppgi frihetsgrader nar du bruker t- eller F-tabeller.

Bayesiansk analyse

•Glemme at 'proposjonal med' betyr at du kan ignorere konstanter som ikke avhenger av theta.
•Ikke gjenkjenne gamma-kjernen: lambda^{a-1} e^{-lambda/b} er Gamma(a, b). Oev pa a identifisere dette.
•Forveksle prior-parametre med data -- prioren er det du tror FoR du ser data.
•Tro at Bayesiansk analyse alltid gir andre svar enn MLE -- med mye data konvergerer de.

Regresjon som ramme for gruppetesting

•Tro at regresjon og t-test gir ulike svar -- med riktig koding gir de IDENTISKE resultater.
•Glemme at R^2-dekomponeringen kun gjelder nar variablene er ortogonale.
•Forveksle 0/1-koding med +/-0.5-koding -- de gir forskjellig tolkning av beta0.
•Glemme at fordelen med multippel regresjon er lavere sigma-hat, selv om koeffisientene er uendret.

Eksamenstips

Maximum likelihood-estimering (MLE)

•MLE-utledning kommer pa nesten ALLE eksamener (H2023, H2024, H2025). Drill fremgangsmaaten.
•Oppgaven sier ofte 'vis at MLE er ...' -- da trenger du bare a derivere log-likelihood og vise at resultatet stemmer.
•Fisher-informasjon brukes til a finne asymptotisk varians, som igjen gir konfidensintervaller.
•Momentestimatoren $\bar{X} = E(X)$ er alltid et godt forste steg, men MLE er oftest mer effisient.

Konfidensintervaller og hypotesetesting

•Les R-utskriften noyaktig: Estimate, Std. Error, t value og Pr(>|t|) gir deg alt du trenger.
•Nar oppgaven ber om P-verdi via en tabell, bruk ulikheter for a angi et intervall P-verdien ligger i.
•To-utvalgs t-test (H2023, H2025) og konfidensintervall fra MLE (H2024, H2025) er gjengangere.
•Husk at KI for mu1-mu2 som ikke inneholder 0 betyr signifikant forskjell pa tilsvarende niva.

Enkel lineaer regresjon

•Beviset for Var(beta1-hat) er spurt i H2024. Bruk formen med Yi(xi-xbar) og at Yi er uavhengige.
•Nar R-utskrift gis: les av ALLE noykkeltall (estimater, SE, t, p, R^2, sigma-hat, frihetsgrader).
•Husk at Residual standard error i R = sigma-hat, og frihetsgrader = n - (antall parametre).
•For 95 % KI for beta1: beta1-hat +/- t_{alpha/2, n-2} * se(beta1-hat). Bruk oppgitt kvantiletabell.

Multippel lineaer regresjon

•Matrise-utledningen (vis normallikningene, los pa matriseform) var eksplisitt spurt i H2024 og H2025.
•Nar oppgaven gir bade enkel og multippel utskrift: sammenlign koeffisienter, R^2, og sigma-hat.
•Ortogonale variable (sentrert + ukorrelert) er et yndet tema -- vet du dette, forenkles alt drastisk.
•Husk: R^2 = r^2 gjelder KUN for enkel regresjon. For multippel regresjon er R^2 = korrelasjon(Y, Y-hat)^2.

Residualanalyse og modelldiagnostikk

•Residualplott-tolkning var eksplisitt i H2024. Forvent slike oppgaver hvert ar.
•Bruk systematisk sjekkliste: linearitet (Residuals vs Fitted), homoskedastisitet (Scale-Location), normalitet (QQ).
•Nar oppgaven sier 'ignorer at to plott bruker standardiserte residualer' -- da er tolkningen lik.
•Skill mellom 'modellen passer godt' og 'modellen fanger hovedtrekket men kan forbedres'.

Modellsammenligning og multikollinearitet

•Multikollinearitet-paradokset (H2023) er et klassisk eksamenssporsmal. Forstaa mekanismen bak.
•Nar to modeller gir naesten lik R^2, er den enklere modellen a foretrekke (parsimoniprinsippet).
•Prediksjonsintervaller er brede pga. sigma^2 -- dette er viktig a kommentere nar oppgaven spor.
•Sjekk alltid om ekstra variable gir meningsfull okning i justert R^2 og signifikant F-test.

To-utvalgsmetoder og ikke-parametriske tester

•To-utvalgsoppgaven i H2023 er en klassisk eksamen-oppgave. Drill hele flyten: F-test -> t-test -> KI -> konklusjon.
•Nar oppgaven gir QQ-plott: kommenter normalitet og knytt det til valg mellom t-test og Wilcoxon.
•Husk at nar KI for mu1-mu2 ikke inneholder 0, er det konsistent med forkastning av H0.
•Welch-frihetsgrader trenger du sjelden a beregne -- oppgaven gir dem ofte direkte.

Bayesiansk analyse

•Bayesiansk analyse dukket opp pa H2025 for forste gang. Det kan bli en ny gjenganger.
•Nokkelen er a multiplisere likelihood med prior og gjenkjenne den resulterende fordelingen.
•Sammenlign alltid aposteriori forventning med MLE -- kommenter om de er naere (store n) eller ulike (sma n).
•Eksponensialfordeling som prior for Poisson-parameter er et naturlig konjugert par -- drill dette.

Regresjon som ramme for gruppetesting

•H2025 oppgave 2-3 testet hele flyten fra t-test via enkel regresjon til multippel regresjon. Forvent lignende.
•Ortogonalitetsegenskapene (diagonal X'X, uendret beta, R^2-dekomponering) er sentrale -- forstaa alle tre.
•Nar du sammenligner regresjon med t-test, sjekk at beta1 = gruppeforskjell og RSE = Sp.
•Vis at du kan sette opp X-matrisen eksplisitt og beregne X'X for hand.