MET 2920

Cheat Sheet

Formler, begreper og oppsummering

Statistikk for økonomer

eksamenssett.no

Formler

Sannsynlighet og fordelinger

• $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
• $P(A|B) = \frac{P(A \cap B)}{P(B)}$
• $E(X) = \sum x_i \cdot P(X = x_i)$
• $\text{Var}(X) = E(X^2) - [E(X)]^2$
• $\text{Cov}(X,Y) = E(XY) - E(X) \cdot E(Y)$
• $P(X = k) = \binom{n}{k} p^k(1-p)^{n-k}$ (Spill Bisk)
• $Z = \frac{X - \mu}{\sigma}$ (Standardisering)

Konfidensintervall

• $\bar{x} \pm t^*_{(1-c)/2} \cdot \frac{s}{\sqrt{n}}$ (ett gj.snitt, df=n-1)
• $\bar{x}_1 - \bar{x}_2 \pm t^*_{(1-c)/2} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$ (to gj.snitt, df=min(n1-1,n2-1))
• $\hat{p} \pm z^*_{(1-c)/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ (en andel)
• $\hat{p}_1 - \hat{p}_2 \pm z^*_{(1-c)/2} \cdot \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$ (to andeler)

Hypotesetesting

• $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ (ett gj.snitt, df=n-1)
• $t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}}$ (to gj.snitt, df=min(n1-1,n2-1))
• $z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$ (en andel, bruk p0 i nevner!)
• $z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}}$ (to andeler, $\hat{p} = (X_1+X_2)/(n_1+n_2)$)
•Forkast $H_0$ dersom P-verdi $< \alpha$

Regresjon

• $\hat{\beta}_1 = \frac{s_{xy}}{s_x^2} = r_{xy} \cdot \frac{s_y}{s_x}$
• $\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \cdot \bar{x}$
• $R^2 = r_{xy}^2 = \frac{SSE}{SST} = 1 - \frac{SSR}{SST}$
• $\hat{\sigma}_e = \sqrt{\frac{SSR}{n-2}}$ (Residual standard error)
• $SE(\hat{\beta}_1) = \frac{s_e}{s_x\sqrt{n-1}}$
• $t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)}$ (df = n-2)

Kji-kvadrat

• $\chi^2 = \sum \frac{(\text{obs} - \text{forv})^2}{\text{forv}}$
• $\text{Forv}_{ij} = \frac{\text{radsum}_i \cdot \text{kolonnesum}_j}{\text{totalsum}}$
• $df = (r-1)(k-1)$ (uavhengighetstest)

Mye brukte tabellverdier

• $z^*_{0.10} = 1.29, \quad z^*_{0.05} = 1.65, \quad z^*_{0.025} = 1.96, \quad z^*_{0.01} = 2.33, \quad z^*_{0.005} = 2.58$

Nøkkelformler per tema

Sannsynlighet

• $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ (Addisjonsregelen)
• $P(A|B) = \frac{P(A \cap B)}{P(B)}$ (Betinget sannsynlighet)
• $E(X) = \sum x_i \cdot P(X = x_i)$ (Forventning)
• $\text{Var}(X) = E(X^2) - [E(X)]^2$ (Varians)
• $\text{Cov}(X,Y) = E(XY) - E(X) \cdot E(Y)$ (Kovarians)
• $E(aX + bY) = aE(X) + bE(Y)$ (Linearitet)

Fordelinger

• $P(X = x) = \binom{n}{x} p^x (1-p)^{n-x}$ (Spill Bisk)
• $P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}$ (Spill Ageometrisk)
• $\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)$ (Gjennomsnitt av normalfordelte)
• $\text{Bin}(n,p) \approx N(np, \sqrt{np(1-p)})$ (Normalapproksimasjon)

Konfidensintervall

• $\bar{x} \pm t^*_{(1-c)/2} \cdot \frac{s}{\sqrt{n}}$ (KI for ett gjennomsnitt, df = n-1)
• $\bar{x}_1 - \bar{x}_2 \pm t^*_{(1-c)/2} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$ (KI for differanse gjennomsnitt, df = min(n1-1, n2-1))
• $\hat{p} \pm z^*_{(1-c)/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ (KI for andel)
• $\hat{p}_1 - \hat{p}_2 \pm z^*_{(1-c)/2} \cdot \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$ (KI for differanse andeler)

Hypotesetesting

• $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ (t-test for ett gjennomsnitt, df = n-1)
• $t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}}$ (t-test for to gjennomsnitt, df = min(n1-1, n2-1))
• $z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$ (z-test for en andel)
• $z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}}$ (z-test for to andeler, $\hat{p} = (X_1+X_2)/(n_1+n_2)$)
•Forkast $H_0$ hvis P-verdi $< \alpha$

Regresjon

• $\hat{\beta}_1 = \frac{s_{xy}}{s_x^2} = r_{xy} \cdot \frac{s_y}{s_x}$ (Stigningstall)
• $\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \cdot \bar{x}$ (Konstantledd)
• $R^2 = r_{xy}^2$ (Forklaringskraft)
• $t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)}, \quad df = n-2$ (Test for beta_1)
• $SE(\hat{\beta}_1) = \frac{s_e}{s_x \sqrt{n-1}}$ (Standardfeil for beta_1)

Korrelasjon

• $s_{xy} = \frac{1}{n-1}\sum(x_i - \bar{x})(y_i - \bar{y})$ (Utvalgskovarians)
• $r_{xy} = \frac{s_{xy}}{s_x \cdot s_y}$ (Utvalgskorrelasjon)
• $r_{xy} = \pm\sqrt{R^2}$ (Sammenheng med R-squared)
• $\rho_{XY} = \frac{\text{Cov}(X,Y)}{\sigma_X \cdot \sigma_Y}$ (Populasjonskorrelasjon)

Kji-kvadrat-test

• $\chi^2 = \sum \frac{(\text{observert} - \text{forventet})^2}{\text{forventet}}$ (Testobservator)
• $\text{Forv}_{ij} = \frac{(\text{radsum}_i) \cdot (\text{kolonnesum}_j)}{\text{totalsum}}$ (Forventede verdier)
• $df = (r-1)(k-1)$ (Frihetsgrader for uavhengighetstest)
• $df = m - 1$ (Frihetsgrader for goodness-of-fit)

Variansanalyse (ANOVA)

• $F = \frac{SSB/(k-1)}{SSW/(n-k)}$ (ANOVA F-test)
• $SST = SSB + SSW$ (Dekomponering av variasjon)
•For to grupper: $F = t^2$ (ekvivalens med t-test)
•I R-utskrift for regresjon: F-statistic tester $H_0: \beta_1 = 0$

Vanlige feil å unngå

Sannsynlighet

•Glemme at uavhengighetssjekken krever at P(X=x,Y=y) = P(X=x)*P(Y=y) for ALLE kombinasjoner -- det holder ikke a sjekke bare en.
•Forveksle Cov(X,Y) og Cor(X,Y). Kovarians har enheter, korrelasjon er dimensjonslos mellom -1 og 1.
•Glemme at E(aX + bY) = aE(X) + bE(Y) gjelder ALLTID, men Var(X+Y) = Var(X) + Var(Y) bare når X og Y er uavhengige.
•Summere feil i simultanfordelingstabellen -- kontroller alltid at alle sannsynligheter summerer til 1.

Fordelinger

•Blande binomisk (med tilbakelegging) og hypergeometrisk (uten tilbakelegging). Eksamen V2024 hadde begge i samme oppgave.
•Glemme a dele standardavviket på sqrt(n) når du standardiserer et gjennomsnitt i stedet for en enkeltobservasjon.
•Sla opp feil i Z-tabellen. Husk: Tabell A gir P(Z <= z) for positive z-verdier, Tabell B for negative.
•Bruke normalapproksimasjon uten a nevne at n er stor nok -- på eksamen bør du nevne dette.

Konfidensintervall

•Bruke z-verdi i stedet for t-verdi når du lager KI for gjennomsnitt med ukjent sigma. For andeler brukes z.
•Glemme a oppgi frihetsgrader (df) når du leser av t-tabellen.
•Gi bare tallet uten praktisk tolkning. Eksamen gir 0 poeng for 'vi forkaster/beholder' uten kontekstuell forklaring.
•Bruke feil formel for standardfeil: SE for gjennomsnitt (s/sqrt(n)) vs. SE for andel (sqrt(p*(1-p)/n)).

Hypotesetesting

•Bruke p-hat i nevneren for test av en andel i stedet for p0 fra nullhypotesen. Ved KI bruker vi p-hat, ved test bruker vi p0!
•Sette opp feil retning på H_A. Les oppgaveteksten nøyaktig: 'storre enn' = ensidig ovre, 'forskjell' = tosidig.
•Gi null poeng-konklusjon: 'forkaster H0'. Eksamen krever ALLTID praktisk tolkning i kontekst.
•Forveksle Type I og Type II feil. Husk: Type I = forkaste sann H0 (falsk alarm). Type II = beholde gal H0 (bom).

Regresjon

•Glemme at P-verdien i R-utskriften er TOSIDIG. Del på 2 for ensidig test!
•Forveksle SSE og SSR. SSR = sum av kvadrerte residualer. SSE = sum av forklart variasjon. SST = SSE + SSR.
•Konkludere med arsakssammenheng bare fordi regresjonen er signifikant. Husk konfunderende variabler!
•Bruke feil frihetsgrader: df = n-2 for regresjon (ikke n-1 som for t-test av gjennomsnitt).

Korrelasjon

•Glemme fortegnet når du beregner r fra R-squared. Fortegnet folger beta_1-hat!
•Blande kovarians (dimensjonsbeheftet) og korrelasjon (dimensjonslos). På eksamen kan du få begge.
•Tro at r nart 0 betyr 'ingen sammenheng'. Det betyr bare ingen LINEAR sammenheng.
•Dele på n i stedet for n-1 i utvalgskovarians/korrelasjon.

Kji-kvadrat-test

•Bruke feil frihetsgrader. For 2x4-tabell er df = (2-1)(4-1) = 3, ikke 7.
•Glemme a beregne ALLE cellene i kji-kvadrat-summen -- både rad 1 og rad 2.
•Bruke observerte verdier i stedet for forventede verdier i nevneren.
•Forveksle kji-kvadrat-tabell (ensidig, høyrehale) med t- eller z-tabell.

Variansanalyse (ANOVA)

•Forveksle SSB (mellom grupper) og SSW (innad i grupper).
•Bruke feil frihetsgrader: df1 = k-1 (teller), df2 = n-k (nevner).
•Tro at ANOVA forteller HVILKE grupper som er ulike -- den sier bare at minst to er ulike.
•Forveksle F-tabellen med kji-kvadrat-tabellen. F har to frihetsgrader (teller og nevner).

Eksamenstips

Sannsynlighet

•Simultanfordelingsoppgaver kommer på nesten hver eksamen. Lag marginaler forst, beregn deretter E(X), E(Y), E(XY) systematisk.
•Uavhengighetssjekken er et ja/nei-sporsmal: sjekk EN celle og vis at likheten brytes.
•Når du finner Var(X+Y) med avhengige variabler, bruk Var(X+Y) = Var(X) + Var(Y) + 2*Cov(X,Y).
•Eksamensoppgaver (V2024, V2025) kombinerer simultanfordeling med okonomisk tolkning -- forventet nettogevinst, forventet omsetning etc.

Fordelinger

•Kombinasjonen normalfordeling + binomisk kommer på HVER eksamen. Forst beregn p fra normalfordelingen, så bruk binomisk.
•Når oppgaven spor om 'minst k', bruk P(X >= k) = 1 - P(X <= k-1). Regn ut hvert ledd for hand.
•For store n (f.eks. n=150 eller n=350) er binomisk utregning umulig for hand -- bruk normalapproksimasjon.
•Persentiler: Finn z-verdi fra tabell, regn tilbake: X = mu + z*sigma. F.eks. 99-persentilen: X = mu + 2.33*sigma.

Konfidensintervall

•Mye brukte tabellverdier: z*_0.025 = 1.96 (95% KI), z*_0.05 = 1.65, z*_0.005 = 2.58 (99% KI).
•Når oppgaven spor 'hva kan du gjøre for å få et smalere KI?': øke utvalgsstorrelsen n.
•Dualitet: Et 95% KI som ikke inneholder 0 (for differanse) tilsvarer forkastning av H0 på 5% signifikansniva.
•På eksamen H2024 og V2025 var det KI-oppgave for både ett gjennomsnitt, to gjennomsnitt OG andel -- alt i samma eksamen.

Hypotesetesting

•Oppgaven sier alltid hvilket signifikansniva du skal bruke. Sjekk dette for du starter!
•Skriv alltid de 5 stegene: H0, HA, testobservator, P-verdi, konklusjon med tolkning.
•Ved ensidig test: P-verdien er HALV så stor som ved tosidig. Husk a dele/ikke dele avhengig av retning.
•Oppgave 2g (H2025): 'Hva er det laveste signifikansniva for a IKKE forkaste H0?' Svar: Ethvert alfa <= P-verdien.

Regresjon

•Regresjonsoppgaven er den storste på eksamen (typisk 9-12 poeng). Øv på a lese R-utskrifter raskt.
•For å finne korrelasjon r fra R-utskriften: r = +/-sqrt(R-squared). Fortegnet er det samme som beta_1-hat.
•Tolkning av beta_1 MED kontekst gir ekstra poeng. Skriv: 'For hvert ar eldre bygningen er, øker Prom med 0.58 kvm i gjennomsnitt.'
•På eksamen H2024 og V2025 matte du både beregne for hand OG lese R-utskrift. Forbered begge deler!

Korrelasjon

•Korrelasjon beregnes nesten alltid i forbindelse med regresjonsoppgaven. Ha formelen r = s_xy / (s_x * s_y) klar.
•Kontrollen r^2 = R-squared fra R-utskriften er en god sjakk på beregningene dine.
•Øv på a beregne kovarians og korrelasjon fra små datasett (n=3 eller n=4) for hand -- dette gis på nesten hver eksamen.

Kji-kvadrat-test

•Kji-kvadrat-testen dukket opp på H2023-eksamen. Forventede verdier er ofte oppgitt i parentes i oppgaveteksten.
•Vis utregningen for minst 2-3 celler eksplisitt, og skriv så totalsum.
•Forkastningsregelen er alltid høyrehale: forkast hvis chi^2 > kritisk verdi.
•Det er bare noen få kritiske verdier du trenger fra kji-kvadrat-tabellen (df = 1,2,3 for alfa = 0.01, 0.05).
•Kji-kvadrat-testen er alltid ensidig (høyrehale). Stor chi^2 betyr stor avstand mellom observert og forventet.

Variansanalyse (ANOVA)

•ANOVA i ren form har ikke dominert eksamen, men F-statistikken i R-utskriften er viktig a forstå.
•Når du har bare to grupper, bruk t-test -- det er det eksamen fokuserer på.
•Forstå prinsippet: vi sammenligner variasjon mellom grupper med variasjon innad. Stort F-forhold = store forskjeller.
•Les F-statistikk og p-value i R-utskriften for å avgjøre om modellen har forklaringskraft.

MET 2920

Cheat Sheet

Formler, begreper og oppsummering

Statistikk for økonomer

eksamenssett.no

Formler

Sannsynlighet og fordelinger

• $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
• $P(A|B) = \frac{P(A \cap B)}{P(B)}$
• $E(X) = \sum x_i \cdot P(X = x_i)$
• $\text{Var}(X) = E(X^2) - [E(X)]^2$
• $\text{Cov}(X,Y) = E(XY) - E(X) \cdot E(Y)$
• $P(X = k) = \binom{n}{k} p^k(1-p)^{n-k}$ (Spill Bisk)
• $Z = \frac{X - \mu}{\sigma}$ (Standardisering)

Konfidensintervall

• $\bar{x} \pm t^*_{(1-c)/2} \cdot \frac{s}{\sqrt{n}}$ (ett gj.snitt, df=n-1)
• $\bar{x}_1 - \bar{x}_2 \pm t^*_{(1-c)/2} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$ (to gj.snitt, df=min(n1-1,n2-1))
• $\hat{p} \pm z^*_{(1-c)/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ (en andel)
• $\hat{p}_1 - \hat{p}_2 \pm z^*_{(1-c)/2} \cdot \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$ (to andeler)

Hypotesetesting

• $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ (ett gj.snitt, df=n-1)
• $t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}}$ (to gj.snitt, df=min(n1-1,n2-1))
• $z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$ (en andel, bruk p0 i nevner!)
• $z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}}$ (to andeler, $\hat{p} = (X_1+X_2)/(n_1+n_2)$)
•Forkast $H_0$ dersom P-verdi $< \alpha$

Regresjon

• $\hat{\beta}_1 = \frac{s_{xy}}{s_x^2} = r_{xy} \cdot \frac{s_y}{s_x}$
• $\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \cdot \bar{x}$
• $R^2 = r_{xy}^2 = \frac{SSE}{SST} = 1 - \frac{SSR}{SST}$
• $\hat{\sigma}_e = \sqrt{\frac{SSR}{n-2}}$ (Residual standard error)
• $SE(\hat{\beta}_1) = \frac{s_e}{s_x\sqrt{n-1}}$
• $t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)}$ (df = n-2)

Kji-kvadrat

• $\chi^2 = \sum \frac{(\text{obs} - \text{forv})^2}{\text{forv}}$
• $\text{Forv}_{ij} = \frac{\text{radsum}_i \cdot \text{kolonnesum}_j}{\text{totalsum}}$
• $df = (r-1)(k-1)$ (uavhengighetstest)

Mye brukte tabellverdier

• $z^*_{0.10} = 1.29, \quad z^*_{0.05} = 1.65, \quad z^*_{0.025} = 1.96, \quad z^*_{0.01} = 2.33, \quad z^*_{0.005} = 2.58$

Nøkkelformler per tema

Sannsynlighet

• $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ (Addisjonsregelen)
• $P(A|B) = \frac{P(A \cap B)}{P(B)}$ (Betinget sannsynlighet)
• $E(X) = \sum x_i \cdot P(X = x_i)$ (Forventning)
• $\text{Var}(X) = E(X^2) - [E(X)]^2$ (Varians)
• $\text{Cov}(X,Y) = E(XY) - E(X) \cdot E(Y)$ (Kovarians)
• $E(aX + bY) = aE(X) + bE(Y)$ (Linearitet)

Fordelinger

• $P(X = x) = \binom{n}{x} p^x (1-p)^{n-x}$ (Spill Bisk)
• $P(X = k) = \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}$ (Spill Ageometrisk)
• $\bar{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)$ (Gjennomsnitt av normalfordelte)
• $\text{Bin}(n,p) \approx N(np, \sqrt{np(1-p)})$ (Normalapproksimasjon)

Konfidensintervall

• $\bar{x} \pm t^*_{(1-c)/2} \cdot \frac{s}{\sqrt{n}}$ (KI for ett gjennomsnitt, df = n-1)
• $\bar{x}_1 - \bar{x}_2 \pm t^*_{(1-c)/2} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$ (KI for differanse gjennomsnitt, df = min(n1-1, n2-1))
• $\hat{p} \pm z^*_{(1-c)/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ (KI for andel)
• $\hat{p}_1 - \hat{p}_2 \pm z^*_{(1-c)/2} \cdot \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}$ (KI for differanse andeler)

Hypotesetesting

• $t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}$ (t-test for ett gjennomsnitt, df = n-1)
• $t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}}$ (t-test for to gjennomsnitt, df = min(n1-1, n2-1))
• $z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$ (z-test for en andel)
• $z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}}$ (z-test for to andeler, $\hat{p} = (X_1+X_2)/(n_1+n_2)$)
•Forkast $H_0$ hvis P-verdi $< \alpha$

Regresjon

• $\hat{\beta}_1 = \frac{s_{xy}}{s_x^2} = r_{xy} \cdot \frac{s_y}{s_x}$ (Stigningstall)
• $\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \cdot \bar{x}$ (Konstantledd)
• $R^2 = r_{xy}^2$ (Forklaringskraft)
• $t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)}, \quad df = n-2$ (Test for beta_1)
• $SE(\hat{\beta}_1) = \frac{s_e}{s_x \sqrt{n-1}}$ (Standardfeil for beta_1)

Korrelasjon

• $s_{xy} = \frac{1}{n-1}\sum(x_i - \bar{x})(y_i - \bar{y})$ (Utvalgskovarians)
• $r_{xy} = \frac{s_{xy}}{s_x \cdot s_y}$ (Utvalgskorrelasjon)
• $r_{xy} = \pm\sqrt{R^2}$ (Sammenheng med R-squared)
• $\rho_{XY} = \frac{\text{Cov}(X,Y)}{\sigma_X \cdot \sigma_Y}$ (Populasjonskorrelasjon)

Kji-kvadrat-test

• $\chi^2 = \sum \frac{(\text{observert} - \text{forventet})^2}{\text{forventet}}$ (Testobservator)
• $\text{Forv}_{ij} = \frac{(\text{radsum}_i) \cdot (\text{kolonnesum}_j)}{\text{totalsum}}$ (Forventede verdier)
• $df = (r-1)(k-1)$ (Frihetsgrader for uavhengighetstest)
• $df = m - 1$ (Frihetsgrader for goodness-of-fit)

Variansanalyse (ANOVA)

• $F = \frac{SSB/(k-1)}{SSW/(n-k)}$ (ANOVA F-test)
• $SST = SSB + SSW$ (Dekomponering av variasjon)
•For to grupper: $F = t^2$ (ekvivalens med t-test)
•I R-utskrift for regresjon: F-statistic tester $H_0: \beta_1 = 0$

Vanlige feil å unngå

Sannsynlighet

•Glemme at uavhengighetssjekken krever at P(X=x,Y=y) = P(X=x)*P(Y=y) for ALLE kombinasjoner -- det holder ikke a sjekke bare en.
•Forveksle Cov(X,Y) og Cor(X,Y). Kovarians har enheter, korrelasjon er dimensjonslos mellom -1 og 1.
•Glemme at E(aX + bY) = aE(X) + bE(Y) gjelder ALLTID, men Var(X+Y) = Var(X) + Var(Y) bare når X og Y er uavhengige.
•Summere feil i simultanfordelingstabellen -- kontroller alltid at alle sannsynligheter summerer til 1.

Fordelinger

•Blande binomisk (med tilbakelegging) og hypergeometrisk (uten tilbakelegging). Eksamen V2024 hadde begge i samme oppgave.
•Glemme a dele standardavviket på sqrt(n) når du standardiserer et gjennomsnitt i stedet for en enkeltobservasjon.
•Sla opp feil i Z-tabellen. Husk: Tabell A gir P(Z <= z) for positive z-verdier, Tabell B for negative.
•Bruke normalapproksimasjon uten a nevne at n er stor nok -- på eksamen bør du nevne dette.

Konfidensintervall

•Bruke z-verdi i stedet for t-verdi når du lager KI for gjennomsnitt med ukjent sigma. For andeler brukes z.
•Glemme a oppgi frihetsgrader (df) når du leser av t-tabellen.
•Gi bare tallet uten praktisk tolkning. Eksamen gir 0 poeng for 'vi forkaster/beholder' uten kontekstuell forklaring.
•Bruke feil formel for standardfeil: SE for gjennomsnitt (s/sqrt(n)) vs. SE for andel (sqrt(p*(1-p)/n)).

Hypotesetesting

•Bruke p-hat i nevneren for test av en andel i stedet for p0 fra nullhypotesen. Ved KI bruker vi p-hat, ved test bruker vi p0!
•Sette opp feil retning på H_A. Les oppgaveteksten nøyaktig: 'storre enn' = ensidig ovre, 'forskjell' = tosidig.
•Gi null poeng-konklusjon: 'forkaster H0'. Eksamen krever ALLTID praktisk tolkning i kontekst.
•Forveksle Type I og Type II feil. Husk: Type I = forkaste sann H0 (falsk alarm). Type II = beholde gal H0 (bom).

Regresjon

•Glemme at P-verdien i R-utskriften er TOSIDIG. Del på 2 for ensidig test!
•Forveksle SSE og SSR. SSR = sum av kvadrerte residualer. SSE = sum av forklart variasjon. SST = SSE + SSR.
•Konkludere med arsakssammenheng bare fordi regresjonen er signifikant. Husk konfunderende variabler!
•Bruke feil frihetsgrader: df = n-2 for regresjon (ikke n-1 som for t-test av gjennomsnitt).

Korrelasjon

•Glemme fortegnet når du beregner r fra R-squared. Fortegnet folger beta_1-hat!
•Blande kovarians (dimensjonsbeheftet) og korrelasjon (dimensjonslos). På eksamen kan du få begge.
•Tro at r nart 0 betyr 'ingen sammenheng'. Det betyr bare ingen LINEAR sammenheng.
•Dele på n i stedet for n-1 i utvalgskovarians/korrelasjon.

Kji-kvadrat-test

•Bruke feil frihetsgrader. For 2x4-tabell er df = (2-1)(4-1) = 3, ikke 7.
•Glemme a beregne ALLE cellene i kji-kvadrat-summen -- både rad 1 og rad 2.
•Bruke observerte verdier i stedet for forventede verdier i nevneren.
•Forveksle kji-kvadrat-tabell (ensidig, høyrehale) med t- eller z-tabell.

Variansanalyse (ANOVA)

•Forveksle SSB (mellom grupper) og SSW (innad i grupper).
•Bruke feil frihetsgrader: df1 = k-1 (teller), df2 = n-k (nevner).
•Tro at ANOVA forteller HVILKE grupper som er ulike -- den sier bare at minst to er ulike.
•Forveksle F-tabellen med kji-kvadrat-tabellen. F har to frihetsgrader (teller og nevner).

Eksamenstips

Sannsynlighet

•Simultanfordelingsoppgaver kommer på nesten hver eksamen. Lag marginaler forst, beregn deretter E(X), E(Y), E(XY) systematisk.
•Uavhengighetssjekken er et ja/nei-sporsmal: sjekk EN celle og vis at likheten brytes.
•Når du finner Var(X+Y) med avhengige variabler, bruk Var(X+Y) = Var(X) + Var(Y) + 2*Cov(X,Y).
•Eksamensoppgaver (V2024, V2025) kombinerer simultanfordeling med okonomisk tolkning -- forventet nettogevinst, forventet omsetning etc.

Fordelinger

•Kombinasjonen normalfordeling + binomisk kommer på HVER eksamen. Forst beregn p fra normalfordelingen, så bruk binomisk.
•Når oppgaven spor om 'minst k', bruk P(X >= k) = 1 - P(X <= k-1). Regn ut hvert ledd for hand.
•For store n (f.eks. n=150 eller n=350) er binomisk utregning umulig for hand -- bruk normalapproksimasjon.
•Persentiler: Finn z-verdi fra tabell, regn tilbake: X = mu + z*sigma. F.eks. 99-persentilen: X = mu + 2.33*sigma.

Konfidensintervall

•Mye brukte tabellverdier: z*_0.025 = 1.96 (95% KI), z*_0.05 = 1.65, z*_0.005 = 2.58 (99% KI).
•Når oppgaven spor 'hva kan du gjøre for å få et smalere KI?': øke utvalgsstorrelsen n.
•Dualitet: Et 95% KI som ikke inneholder 0 (for differanse) tilsvarer forkastning av H0 på 5% signifikansniva.
•På eksamen H2024 og V2025 var det KI-oppgave for både ett gjennomsnitt, to gjennomsnitt OG andel -- alt i samma eksamen.

Hypotesetesting

•Oppgaven sier alltid hvilket signifikansniva du skal bruke. Sjekk dette for du starter!
•Skriv alltid de 5 stegene: H0, HA, testobservator, P-verdi, konklusjon med tolkning.
•Ved ensidig test: P-verdien er HALV så stor som ved tosidig. Husk a dele/ikke dele avhengig av retning.
•Oppgave 2g (H2025): 'Hva er det laveste signifikansniva for a IKKE forkaste H0?' Svar: Ethvert alfa <= P-verdien.

Regresjon

•Regresjonsoppgaven er den storste på eksamen (typisk 9-12 poeng). Øv på a lese R-utskrifter raskt.
•For å finne korrelasjon r fra R-utskriften: r = +/-sqrt(R-squared). Fortegnet er det samme som beta_1-hat.
•Tolkning av beta_1 MED kontekst gir ekstra poeng. Skriv: 'For hvert ar eldre bygningen er, øker Prom med 0.58 kvm i gjennomsnitt.'
•På eksamen H2024 og V2025 matte du både beregne for hand OG lese R-utskrift. Forbered begge deler!

Korrelasjon

•Korrelasjon beregnes nesten alltid i forbindelse med regresjonsoppgaven. Ha formelen r = s_xy / (s_x * s_y) klar.
•Kontrollen r^2 = R-squared fra R-utskriften er en god sjakk på beregningene dine.
•Øv på a beregne kovarians og korrelasjon fra små datasett (n=3 eller n=4) for hand -- dette gis på nesten hver eksamen.

Kji-kvadrat-test

•Kji-kvadrat-testen dukket opp på H2023-eksamen. Forventede verdier er ofte oppgitt i parentes i oppgaveteksten.
•Vis utregningen for minst 2-3 celler eksplisitt, og skriv så totalsum.
•Forkastningsregelen er alltid høyrehale: forkast hvis chi^2 > kritisk verdi.
•Det er bare noen få kritiske verdier du trenger fra kji-kvadrat-tabellen (df = 1,2,3 for alfa = 0.01, 0.05).
•Kji-kvadrat-testen er alltid ensidig (høyrehale). Stor chi^2 betyr stor avstand mellom observert og forventet.

Variansanalyse (ANOVA)

•ANOVA i ren form har ikke dominert eksamen, men F-statistikken i R-utskriften er viktig a forstå.
•Når du har bare to grupper, bruk t-test -- det er det eksamen fokuserer på.
•Forstå prinsippet: vi sammenligner variasjon mellom grupper med variasjon innad. Stort F-forhold = store forskjeller.
•Les F-statistikk og p-value i R-utskriften for å avgjøre om modellen har forklaringskraft.