MET4

Cheat Sheet

Formler, begreper og oppsummering

Empiriske metoder

eksamenssett.no

Symboloversikt

Regresjonsnotasjon

• $Y_i$ = avhengig variabel | $X_i$ = uavhengig variabel | $\beta_0$ = konstantledd (intercept)
• $\beta_1, \beta_2, \ldots$ = regresjonskoeffisienter | $\hat{\beta}$ = estimert koeffisient | $u_i$ = feilleddet
• $\hat{Y}_i$ = predikert verdi | $\hat{u}_i$ = residual | $R^2$ = forklaringsgrad

Statistisk inferens

• $\text{SE}(\hat{\beta})$ = standardfeil | $t$ = testobservator | $p$ = p-verdi
• $H_0$ = nullhypotese | $H_1$ = alternativ hypotese | $\alpha$ = signifikansnivå
• $n$ = antall observasjoner | $k$ = antall forklaringsvariabler

Kausal inferens

• $D_i$ = behandlingsindikator (1 = behandlet, 0 = kontroll)
• $Y_i(1)$ = potensielt utfall med behandling | $Y_i(0)$ = potensielt utfall uten behandling
• $\tau$ = ATE = gjennomsnittlig behandlingseffekt | $\tau_{ATT}$ = ATT = behandlingseffekt på de behandlede
• $Z_i$ = instrumentvariabel | $\delta$ = DiD-estimator

Formler

OLS og regresjon

• $Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + u_i$
• $\hat{\beta} = (X'X)^{-1}X'Y$
• $t = \hat{\beta}_j / \text{SE}(\hat{\beta}_j)$
• $\displaystyle F = \frac{(R^2_{UR} - R^2_R)/q}{(1-R^2_{UR})/(n-k-1)}$
• $R^2 = 1 - SSR/SST = ESS/SST$
• $R^2 = 1 - SSR/SST = ESS/SST$

Kausal inferens

• $\tau = E[Y_i(1) - Y_i(0)]$ (ATE)
• $\tau_{ATT} = E[Y_i(1) - Y_i(0) | D_i = 1]$
•Seleksjonsbias: $E[Y_i(0)|D_i=1] - E[Y_i(0)|D_i=0]$
•OVB: $\text{Bias} = \beta_2 \cdot \text{Cov}(X_1,X_2)/\text{Var}(X_1)$

Instrumentvariabler

•IV: $\hat{\beta}^{IV} = \text{Cov}(Z,Y)/\text{Cov}(Z,X)$
•2SLS trinn 1: $X_i = \pi_0 + \pi_1 Z_i + v_i$
•2SLS trinn 2: $Y_i = \beta_0 + \beta_1 \hat{X}_i + \varepsilon_i$
•Svakt instrument: førstesteg $F > 10$

Paneldata

•FE: $Y_{it} = \beta_1 X_{it} + \alpha_i + u_{it}$
•Within: $\ddot{Y}_{it} = \beta_1 \ddot{X}_{it} + \ddot{u}_{it}$
•Hausman: $H = (\hat{\beta}_{FE}-\hat{\beta}_{RE})'[V_{FE}-V_{RE}]^{-1}(\hat{\beta}_{FE}-\hat{\beta}_{RE})$

Difference-in-differences

• $\hat{\delta}_{DiD} = (\bar{Y}_{B,etter}-\bar{Y}_{B,før}) - (\bar{Y}_{K,etter}-\bar{Y}_{K,før})$
• $Y_{it} = \beta_0 + \beta_1 D_i + \beta_2 P_t + \delta(D_i \times P_t) + u_{it}$
•TWFE: $Y_{it} = \alpha_i + \lambda_t + \delta D_{it} + u_{it}$

Regresjonsdiskontinuitet

•Sharp RDD: $\tau = \lim_{x \downarrow c}E[Y|X=x] - \lim_{x \uparrow c}E[Y|X=x]$
•Fuzzy RDD: $\displaystyle \tau = \frac{\text{hopp i }E[Y|X]}{\text{hopp i }E[D|X]}$ ved $c$
•Lokal lineær: $Y_i = \alpha + \tau D_i + \beta_1(X_i-c) + \beta_2 D_i(X_i-c) + u_i$

Logistisk regresjon

•Logit: $\displaystyle P(Y=1|X) = \frac{1}{1+e^{-X'\beta}}$
•Log-odds: $\ln(P/(1-P)) = X'\beta$
•Odds-ratio: $OR_j = e^{\beta_j}$
•Marginaleffekt: $\Lambda(X'\beta)[1-\Lambda(X'\beta)] \cdot \beta_j$

Tidsserier

•AR(1): $Y_t = \phi_0 + \phi_1 Y_{t-1} + u_t$ , stasjonær hvis $|\phi_1|<1$
•ADF: $\displaystyle \Delta Y_t = \alpha + \gamma Y_{t-1} + \sum \delta_j \Delta Y_{t-j} + u_t$
•Random walk: $Y_t = Y_{t-1} + u_t$

Nøkkelformler per tema

Kausalitet og forskningsdesign

•ATE: $\tau = E[Y_i(1) - Y_i(0)]$
•ATT: $\tau_{ATT} = E[Y_i(1) - Y_i(0) | D_i = 1]$
•Observert forskjell: $\text{ATT} + \text{seleksjonsbias}$

Multippel regresjon og tolkning

•OLS-modell: $Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_k X_{ki} + u_i$
•t-test: $t = \hat{\beta}_j / \text{SE}(\hat{\beta}_j)$
•F-test: $\displaystyle F = \frac{(R^2_{UR} - R^2_R)/q}{(1-R^2_{UR})/(n-k-1)}$
•OVB: $\text{Bias}(\hat{\beta}_1) = \beta_2 \cdot \text{Cov}(X_1,X_2)/\text{Var}(X_1)$
•Interaksjonseffekt: $\partial Y/\partial X_1 = \beta_1 + \beta_3 X_2$

Instrumentvariabler

•IV-estimator: $\hat{\beta}^{IV} = \text{Cov}(Z,Y) / \text{Cov}(Z,X)$
•Svakt instrument-regel: Førstesteg $F > 10$

Paneldata og faste effekter

•FE-modell: $Y_{it} = \beta_1 X_{it} + \alpha_i + u_{it}$
•Within-transformasjon: $\ddot{Y}_{it} = \beta_1 \ddot{X}_{it} + \ddot{u}_{it}$
•Hausman-test: $H = (\hat{\beta}_{FE} - \hat{\beta}_{RE})' [V_{FE} - V_{RE}]^{-1} (\hat{\beta}_{FE} - \hat{\beta}_{RE})$

Difference-in-differences

•DiD: $\hat{\delta} = (\bar{Y}_{B,etter} - \bar{Y}_{B,før}) - (\bar{Y}_{K,etter} - \bar{Y}_{K,før})$
•DiD-regresjon: $Y_{it} = \beta_0 + \beta_1 D_i + \beta_2 P_t + \delta (D_i \times P_t) + u_{it}$

Regresjonsdiskontinuitet

•Sharp RDD: $\tau = \lim_{x \downarrow c} E[Y|X=x] - \lim_{x \uparrow c} E[Y|X=x]$
•Fuzzy RDD: $\displaystyle \tau = \frac{\text{hopp i } E[Y|X]}{\text{hopp i } E[D|X]}$ ved $c$
•Lokal lineær: $Y_i = \alpha + \tau D_i + \beta_1(X_i - c) + \beta_2 D_i(X_i - c) + u_i$

Logistisk regresjon og diskrete valg

•Logit: $\displaystyle P(Y=1|X) = \frac{1}{1 + e^{-X'\beta}}$
•Odds-ratio: $e^{\beta_j}$
•Pseudo- $R^2$ : $1 - \ell(\hat{\beta})/\ell(\hat{\beta}_0)$

Tidsserieanalyse

•Førstedifferens: $\Delta Y_t = Y_t - Y_{t-1}$

Vanlige feil å unngå

Kausalitet og forskningsdesign

•Tolker korrelasjon som kausalitet uten å diskutere identifikasjonsstrategien
•Glemmer å diskutere seleksjonsbias når man sammenligner gjennomsnitt mellom grupper
•Forveksler ATE og ATT — disse er like bare under spesielle forutsetninger
•Tror at kontrollvariabler alltid fjerner all seleksjonsbias — det gjør de bare hvis de fanger opp alle confoundere

Multippel regresjon og tolkning

•Glemmer «alt annet likt» i tolkningen — koeffisienten er den partielle effekten
•Tolker log-koeffisienter som absolutte endringer i stedet for prosentvise
•Tror høy $R^2$ automatisk betyr en god modell — $R^2$ sier ingenting om kausalitet
•Forveksler statistisk signifikans med praktisk/økonomisk signifikans
•Glemmer at OVB-retningen bestemmes av to ting: effekten av utelatt variabel OG korrelasjonen

Instrumentvariabler

•Glemmer å argumentere for eksklusjonsrestriksjonen — den kan ikke testes direkte med bare ett instrument
•Rapporterer standardfeil fra trinn 2 manuelt — disse er feil; bruk en dedikert 2SLS-prosedyre
•Tror IV alltid gir bedre estimater enn OLS — IV har større varians og kan være skjev med svake instrumenter
•Glemmer at IV identifiserer LATE, ikke nødvendigvis ATE

Paneldata og faste effekter

•Glemmer at FE fjerner all mellom-enhets variasjon — kan ikke estimere effekten av tidskonstante variabler
•Bruker RE uten å teste antagelsen om $\text{Cov}(\alpha_i, X_{it}) = 0$ med Hausman-testen
•Tolker FE som å «kontrollere for alt» — FE fjerner bare tidskonstante uobserverte forskjeller
•Glemmer å clustre standardfeil på enhetsnivå i paneldata

Difference-in-differences

•Glemmer å diskutere parallelle trender-antagelsen — dette er den viktigste forutsetningen
•Viser parallelle trender i nivåer i stedet for trender — gruppene trenger ikke ha samme nivå, bare samme trend
•Bruker standard TWFE med forskjøvet behandling uten å diskutere heterogenitetsproblemet
•Glemmer å clustre standardfeil — minimum på gruppenivå

Regresjonsdiskontinuitet

•Bruker observasjoner langt fra terskelen — RDD er en lokal metode
•Glemmer McCrary-testen for manipulasjon av running variable
•Bruker høy polynomgrad som gir ustabile og misvisende resultater
•Generaliserer RDD-resultater til hele populasjonen — effekten gjelder bare nær terskelen

Logistisk regresjon og diskrete valg

•Tolker logit-koeffisienter direkte som marginaleffekter — de er log-odds, ikke sannsynlighetsendringer
•Glemmer at marginaleffekten varierer med $X$ — rapporter AME (gjennomsnittlig marginaleffekt) eller MEM (marginaleffekt ved gjennomsnittet)
•Bruker $R^2$ fra lineær regresjon for logit — bruk pseudo- $R^2$ eller AUC
•Sammenligner koeffisienter på tvers av modeller med ulike kontrollvariabler uten å justere

Tidsserieanalyse

•Kjører regresjon på ikke-stasjonære tidsserier uten å teste for enhetsrot — risiko for spuriøs regresjon
•Bruker vanlige standardfeil i stedet for HAC ved autokorrelasjon
•Tolker Granger-kausalitet som ekte kausalitet — det er bare prediktiv sammenheng
•Glemmer at ADF-testen bruker egne kritiske verdier, ikke standard $t$ -fordeling

Eksamenstips

Kausalitet og forskningsdesign

•Formuler alltid det kontrafaktiske eksplisitt: «Hva ville skjedd uten behandlingen?»
•Når du vurderer en studie, start med å identifisere potensielle kilder til seleksjonsbias
•Bruk notasjonen $Y_i(1)$ og $Y_i(0)$ for å vise at du forstår rammeverket

Multippel regresjon og tolkning

•Angi alltid «kontrollert for ...» når du tolker koeffisienter i multippel regresjon
•Ved OVB-spørsmål: sett opp formelen og argumenter for fortegnene på begge komponentene
•Husk å bruke robuste standardfeil (heteroskedastisitet-konsistente) i praksis

Instrumentvariabler

•Beskriv alltid hvorfor instrumentet oppfyller både relevans- og eksklusjonskriteriet
•Rapporter alltid førstesteg F-statistikk for å sjekke instrumentstyrke
•Vurder om LATE-tolkningen er meningsfull i den gitte konteksten

Paneldata og faste effekter

•Forklar intuitivt hva within-transformasjonen gjør: «sammenligner enheten med seg selv over tid»
•Begrunn alltid valget mellom FE og RE — vis at du forstår Hausman-testen
•Husk at toveis faste effekter (enhet + tid) kontrollerer for felles tidssjokk

Difference-in-differences

•Tegn alltid et DiD-diagram med fire gjennomsnitt og vis den kontrafaktiske trenden
•Forklar parallelle trender-antagelsen med egne ord og drøft om den er rimelig i konteksten
•Ved event-studie: forklar at pre-treatment koeffisientene bør være nær null

Regresjonsdiskontinuitet

•Tegn alltid en figur med running variable på x-aksen og utfall på y-aksen, med en klar diskontinuitet ved terskelen
•Drøft om manipulasjon av running variable er sannsynlig i den gitte konteksten
•Vis at du forstår forskjellen mellom sharp og fuzzy RDD — fuzzy er IV med terskelen som instrument

Logistisk regresjon og diskrete valg

•Start alltid med å tolke fortegnet, deretter odds-ratio, og til slutt beregn marginaleffekten
•Vis at du forstår at marginaleffekten avhenger av evalueringspunktet
•Ved modellsammenligning: bruk LR-test for nestede modeller, AIC/BIC for ikke-nestede

Tidsserieanalyse

•Start alltid med å teste for stasjonaritet før du kjører regresjoner på tidsseriedata
•Hvis $R^2 > DW$ -statistikken, mistenk spuriøs regresjon
•Velg antall lags i ADF basert på informasjonskriterier (AIC/BIC)

MET4 Formelark | Eksamenssett