MET 1190

Cheat Sheet

Formler, begreper og oppsummering

Statistikk

eksamenssett.no

Formler

Deskriptiv statistikk

• $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$
• $s_X^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$
• $s_X = \sqrt{s_X^2}$
• $s_{XY} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$
• $r_{XY} = \frac{s_{XY}}{s_X \cdot s_Y}, \quad -1 \le r_{XY} \le 1$

Sannsynlighetsregler

• $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
• $P(A^c) = 1 - P(A)$
• $P(A|B) = \frac{P(A \cap B)}{P(B)}$
• $P(B|A) = P(A|B) \cdot \frac{P(B)}{P(A)}$ (Bayes)
• $P(A \cap B) = P(A) \cdot P(B)$ (uavhengige hendelser)

Tilfeldige variabler

• $E(X) = \sum x_i \cdot P(x_i)$
• $Var(X) = \sum (x_i - E(X))^2 \cdot P(x_i)$
• $E(aX) = aE(X), \quad Var(aX) = a^2 Var(X)$
• $Cov(aX, bY) = ab \cdot Cov(X, Y)$
• $Var(aX + bY) = a^2Var(X) + b^2Var(Y) + 2ab\cdot Cov(X,Y)$

Sentralgrenseteoremet

• $\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) \text{ (tilnarmet for stort n)}$
• $Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)$

Konfidensintervall

• $\hat{p} \pm z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ (for p)
• $\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$ (for mu, sigma kjent)
• $\bar{x} \pm t_{\alpha/2} \cdot \frac{s_X}{\sqrt{n}}$ (for mu, sigma ukjent, df=n-1)
• $z_{0.025} = 1.960, \quad z_{0.05} = 1.645, \quad z_{0.005} = 2.576$

Hypotesetesting

• $z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$ (test for andel)
• $t = \frac{\bar{x} - \mu_0}{s_X/\sqrt{n}}$ (t-test, df = n-1)
•Forkast $H_0$ dersom p-verdi $< \alpha$

Enkel lineær regresjon

• $Y = \beta_1 + \beta_2 X + e$
• $\hat{\beta}_2 = \frac{s_{XY}}{s_X^2}, \quad \hat{\beta}_1 = \bar{y} - \hat{\beta}_2\bar{x}$
• $\hat{\sigma}^2 = \frac{1}{n-2}\sum \hat{e}_i^2$
• $SE(\hat{\beta}_2) = \hat{\sigma} \sqrt{\frac{1}{\sum(x_i - \bar{x})^2}}$
• $R^2 = r_{XY}^2$
• $t = \frac{\hat{\beta}_j - \beta^*}{SE(\hat{\beta}_j)}$ (df = n-2)

Viktige R-funksjoner

•mean(x), median(x), var(x), sd(x), sum(x), length(x)
•pnorm(x, mean, sd): P(X <= x), qnorm(p): z-kvantil
•dbinom(k, size, prob): P(X=k), pbinom(k, size, prob): P(X<=k)
•pt(t, df), qt(p, df): t-fordeling sannsynlighet/kvantil
•t.test(x, mu, alternative, conf.level)
•prop.test(x, n, p, alternative, correct=FALSE)
•lm(Y ~ X): lineær regresjon

Nøkkelformler per tema

Deskriptiv statistikk

• $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ (Gjennomsnitt)
• $s_X^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$ (Utvalgsvarians)
• $s_X = \sqrt{s_X^2}$ (Utvalgets standardavvik)
• $s_{XY} = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})$ (Kovarians)
• $r_{XY} = \frac{s_{XY}}{s_X \cdot s_Y}$ (Korrelasjon)

Sannsynlighet

• $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ (Addisjonsregelen)
• $P(A|B) = \frac{P(A \cap B)}{P(B)}$ (Betinget sannsynlighet)
• $P(B|A) = P(A|B) \cdot \frac{P(B)}{P(A)}$ (Bayes formel)
• $P(A) = P(A|B)P(B) + P(A|B^c)P(B^c)$ (Total sannsynlighet)
• $P(A \cap B) = P(A) \cdot P(B)$ (Uavhengighet)

Binomisk fordeling

• $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$ (Punktsannsynlighet)
• $E(X) = np$ (Forventning)
• $Var(X) = np(1-p)$ (Varians)
•R: dbinom(k, size=n, prob=p) for $P(X=k)$
•R: pbinom(k, size=n, prob=p) for $P(X \le k)$

Normalfordeling

• $Z = \frac{X - \mu}{\sigma}$ (Standardisering)
• $P(Z \le -z) = 1 - P(Z \le z)$ (Symmetri)
•R: pnorm(x, mean=mu, sd=sigma) for $P(X \le x)$
•R: qnorm(p, mean=mu, sd=sigma) for kvantiler
•R bruker sd (standardavvik), IKKE varians!

Sentralgrenseteoremet

• $\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$ (SGT for gjennomsnittet)
• $\sum X_i \sim N(n\mu, n\sigma^2)$ (SGT for summen)
• $Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ (Standardisert gjennomsnitt)

Estimatorteori

• $E(\hat{\theta}) = \theta$ (Forventningsretthet)
• $\hat{\theta} \to \theta \text{ når } n \to \infty$ (Konsistens)
• $E(\bar{X}) = \mu, \quad Var(\bar{X}) = \sigma^2/n$
• $E(S_X^2) = \sigma^2$ (Utvalgsvariansen er forventningsrett)

Kovarians og korrelasjon

• $s_{XY} = \frac{1}{n-1}\sum(x_i - \bar{x})(y_i - \bar{y})$ (Utvalgkovarians)
• $r_{XY} = \frac{s_{XY}}{s_X \cdot s_Y}$ (Utvalgskorrelasjon)
• $Var(aX + bY) = a^2 Var(X) + b^2 Var(Y) + 2ab \cdot Cov(X,Y)$
• $\rho(X,Y) = \frac{Cov(X,Y)}{Std(X) \cdot Std(Y)}$

Konfidensintervall

• $\bar{x} \pm t_{\alpha/2} \cdot \frac{s_X}{\sqrt{n}}$ (KI for mu, sigma ukjent)
• $\bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$ (KI for mu, sigma kjent)
• $\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ (KI for p)
•95% KI: $z_{0.025} = 1.960$ , 90% KI: $z_{0.05} = 1.645$

Hypotesetesting

• $z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$ (z-test for andel)
• $t = \frac{\bar{x} - \mu_0}{s_X/\sqrt{n}}$ (t-test for gjennomsnitt)
•Forkast $H_0$ dersom p-verdi < alpha
•Ensidig: $t_\alpha$ , Tosidig: $t_{\alpha/2}$

Regresjon

• $\hat{\beta}_2 = \frac{s_{XY}}{s_X^2} = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sum(x_i-\bar{x})^2}$
• $\hat{\beta}_1 = \bar{y} - \hat{\beta}_2 \bar{x}$
• $SE(\hat{\beta}_2) = \hat{\sigma} \cdot \frac{1}{\sqrt{\sum(x_i-\bar{x})^2}}$
• $t = \frac{\hat{\beta}_j - \beta^*}{SE(\hat{\beta}_j)}$ med $df = n-2$

R-programmering

•pnorm(x, mean, sd): $P(X \le x)$ for normalfordeling
•dbinom(k, size, prob): $P(X = k)$ (nøyaktig k suksesser)
•pbinom(k, size, prob): $P(X \le k)$ (kumulativ)
•qt(p, df, lower.tail=FALSE): kritisk t-verdi
•prop.test(x, n, p, alternative, correct=FALSE): andelstest

Vanlige feil å unngå

Deskriptiv statistikk

•Dele på n i stedet for n-1 i utvalgsvariansen. Husk: sd(x) i R bruker n-1.
•Blande varians (kvadrerte enheter) og standardavvik (same enhet som data).
•Glemme a sortere dataene for beregning av median.
•Forveksle utvalgsstatistikk (bar{x}, s) med populasjonsparametre (mu, sigma).

Sannsynlighet

•Blande disjunkte og uavhengige hendelser. De er helt forskjellige konsepter!
•Anta at P(A|B) = P(B|A). Dette gjelder generelt IKKE.
•Glemme a trekke fra P(A snitt B) i addisjonsregelen.
•Bruke multiplikasjonsregelen for uavhengige hendelser når hendelsene faktisk er avhengige.

Binomisk fordeling

•Blande dbinom (punktsannsynlighet) og pbinom (kumulativ sannsynlighet) i R.
•Bruke feil parameter i pbinom: prob er sannsynligheten for suksess per forsok, IKKE andelen i utvalget.
•Glemme at binomisk fordeling krever uavhengighet mellom forsokene.
•Forveksle 'nøyaktig k' med 'minst k' eller 'høyest k'.

Normalfordeling

•Oppgi varians i stedet for standardavvik i pnorm/qnorm i R. R-funksjonen tar sd, ikke var!
•Glemme a standardisere for bruk av tabellen. Tabellen gjelder KUN for Z ~ N(0,1).
•Forveksle P(X > x) og P(X < x). Husk: lower.tail=FALSE gir høyre hale.
•Blande 'sannsynlighet for at IQ er 115 eller mer' med 'sannsynlighet for at IQ er mellom 85 og 115'.

Sentralgrenseteoremet

•Bruke SGT for små utvalg (n < 30) uten a vite at populasjonen er normalfordelt.
•Glemme at variansen til gjennomsnittet er sigma^2/n, ikke sigma^2.
•Forveksle sigma^2/n (varians til gjennomsnitt) med sigma^2 (varians til enkeltobservasjon).
•Glemme a nevne SGT som begrunnelse når oppgaven ber deg 'vis at Z er tilnarmet standard normalfordelt'.

Estimatorteori

•Tro at forventningsrett betyr at estimatet alltid er lik theta. Det betyr at GJENNOMSNITTET av alle mulige estimater er theta.
•Glemme a argumentere for konsistens via Var -> 0 når n -> uendelig.
•Forveksle effisiens (lav varians) med forventningsretthet (ingen bias).
•Glemme a skrive ut mellomregningen når oppgaven ber deg 'vise at' -- det er selve beviset som gir poeng.

Kovarians og korrelasjon

•Konkludere at Cov(X,Y) = 0 betyr at X og Y er uavhengige. Det er FEIL -- kovarians maler kun lineær sammenheng.
•Glemme kovarians-leddene i varians av lineærkombinasjoner når variablene er avhengige.
•Blande utvalgskovarians (n-1 i nevneren) med populasjonskovarians.
•Glemme at Cov(Z,Z) = Var(Z), ikke 0.

Konfidensintervall

•Bruke z når sigma er ukjent. Når sigma er ukjent bruker vi ALLTID t-fordeling.
•Feil frihetsgrader: df = n-1 for ett utvalg.
•Blande alpha og alpha/2. For tosidig KI er den kritiske verdien t_{alpha/2}, ikke t_{alpha}.
•Tolke KI feil: 'parameteren ligger i intervallet med 95% sannsynlighet' er FEIL. Riktig: 'metoden gir intervaller som dekker parameteren i 95% av tilfellene'.

Hypotesetesting

•Forveksle ensidig og tosidig test. Les oppgaveteksten nøye for å avgjøre retning på H1.
•Bruke alpha i stedet for alpha/2 for tosidig test.
•Bruke feil nevner i testobservatoren: for andelstest brukes p0 (under H0), ikke p-hatt!
•Glemme a formulere H0 og H1 eksplisitt for du begynner a regne.
•Konkludere med a 'bekrefte H0'. Vi kan ALDRI bekrefte H0, bare 'ikke forkaste' den.

Regresjon

•Forveksle beta_1 (konstantledd) og beta_2 (stigning). beta_2 er effekten av X på Y.
•Dele på n-1 i stedet for n-2 i estimert varians for feilleddet. Vi har estimert TO parametre.
•Glemme a ta kvadratroten av hat{sigma}^2 når man beregner SE. SE bruker hat{sigma}, ikke hat{sigma}^2.
•Tolke R^2 feil: R^2 = 0.18 betyr 18% forklart variasjon, IKKE at modellen er ubrukelig.
•Bruke R^2 direkte som korrelasjon. R^2 er KVADRATET av korrelasjonen.

R-programmering

•Blande pnorm/qnorm: pnorm gir sannsynlighet fra verdi, qnorm gir verdi fra sannsynlighet.
•Bruke sd i stedet for var, eller omvendt. sd(x) er sqrt(var(x)).
•Glemme correct=FALSE i prop.test. Standardinnstillingen bruker kontinuitetskorreksjon.
•Feil df i pt/qt: for t-test av gjennomsnitt er df = n-1, for regresjon er df = n-2.
•Forveksle lower.tail=TRUE (venstreside) og lower.tail=FALSE (høyreside).

Eksamenstips

Deskriptiv statistikk

•R-funksjoner: mean(x), median(x), var(x) (gir s^2 med n-1), sd(x) (gir s med n-1).
•Når oppgaven gir summer direkte (sum x_i, sum (x_i - xbar)^2), bruk dem rett i formlene.
•Kommenter alltid hva tallene betyr i kontekst (f.eks. 'gjennomsnittstemperaturen er 7.4 timer').

Sannsynlighet

•Sannsynlighetsoppgaver krever tydelig notasjon. Definer hendelsene eksplisitt for du regner.
•Tegn gjerne et Venn-diagram for å visualisere problemet.
•Oppgaver med disjunkte hendelser forenkler beregningene betraktelig. Se etter dette!
•På eksamen H2024 var det en hel oppgave (vekt 0.20) om sannsynlighetsregler med standard normalfordeling.

Binomisk fordeling

•dbinom = nøyaktig k suksesser. pbinom = kumulativ (opptil k). Dette er en gjenganger på R-oppgaven!
•Binomisk fordeling kobles ofte med normalfordeling: først finn p via normalfordelingen, deretter bruk binomisk.
•Sjekk alltid om oppgaven spor om nøyaktig, minst, eller høyest -- dette bestemmer R-funksjonen.

Normalfordeling

•IQ-oppgaver med mu=100, sigma^2=225 er en gjenganger! Har kommet på minst 3 av 5 eksamener.
•På R-oppgaven: sjekk alltid om oppgaven oppgir varians eller standardavvik -- R vil ha sd.
•For tabelloppslag: les Z-verdien til to desimaler. F.eks. Z=1.96 -> rad 1.9, kolonne 0.06.

Sentralgrenseteoremet

•Oppgaver som ber deg 'vis at Z er tilnarmet standard normalfordelt' krever at du eksplisitt refererer til SGT.
•Husk a angi betingelsene: uavhengighet og 'n er stor'.
•SGT-oppgaver har kommet på 4 av 5 eksamener -- ofte som bevisoppgave (Oppgave 2). Les disse nøye!

Estimatorteori

•Bevisoppgaver for E(S^2) = sigma^2 er en gjenganger. Ov på a gjøre dette beviset fra scratch.
•Når oppgaven spor 'hva kan vi konkludere om de statistiske egenskapene', nevn forventningsretthet, konsistens og eventuelt effisiens.
•Oppgave 2 eller 3 på eksamen er ofte en estimatorteori-oppgave med SGT. Vekt: 0.20-0.25.

Kovarians og korrelasjon

•Bevisoppgaver med Cov er en gjenganger -- spesielt med lineærkombinasjoner av uavhengige Z-variabler.
•Skriv ut ALLE mellomtrinn. Vis tydelig hvilke regneregler du bruker.
•Husk: Cov(X, a) = 0 for alle konstanter a. Cov(X, X) = Var(X).

Konfidensintervall

•Alltid oppgi: punktestimat, kritisk verdi (og kilde), standardfeil, feilmargin, og det endelige intervallet.
•Kommenter resultatet i kontekst! F.eks. 'Intervallet inneholder fartsgrensen 100 km/t'.
•R-kode: qt(alpha/2, df, lower.tail=FALSE) for kritisk t-verdi. t.test(x, conf.level=0.90) for hele KI.

Hypotesetesting

•Foll ALLTID 5-trinns-malen: Hypoteser -> signifikansniva -> testobservator -> p-verdi/kritisk verdi -> konklusjon.
•I R: pt() for t-test p-verdier, pnorm() for z-test p-verdier. lower.tail avgjør retning.
•prop.test() for andeler, t.test() for gjennomsnitt. Alternative = 'greater', 'less', eller 'two.sided'.
•Hypotesetesting er på HVER eksamen, typisk 0.10-0.25 av totalvekten. Denne oppgavetypen må sitte!

Regresjon

•Regresjonsoppgaven er ALLTID den tyngste oppgaven (0.25-0.35 av eksamen). Start med denne om du er trygg.
•Ved handregning: beregn beta_2 først, deretter beta_1 = y_bar - beta_2 * x_bar.
•Tolke R-output fra lm(): Estimate-kolonnen gir koeffisienter, Std. Error gir SE, t value gir testobservator.
•Ensidig test for beta_2: H1: beta_2 < 0 (negativ effekt) eller H1: beta_2 > 0 (positiv effekt). Halver p-verdien fra R.

R-programmering

•R-oppgaven er 10-15% av eksamen og krever ingen begrunnelse. Bruk prosessen: les koden -> simuler mentalt -> velg svar.
•pnorm-oppgaver: sjekk alltid om de oppgir sd eller var. R-funksjonen krever sd!
•For-lokker: skriv variabelverdiene for hvert steg. Ikke forsok a gjøre det i hodet.
•Vanlige R-tester: t.test for gjennomsnitt, prop.test for andel, lm for regresjon.