Hvilke fire faktorer bestemmer nødvendig utvalgsstørrelse i en A/B-test, og hvordan påvirker baseline-konverteringsraten kravet?
Klikk for å snu kortet
Nødvendig utvalgsstørrelse bestemmes av samspillet mellom fire faktorer: (1) Signifikansnivå — lavere (færre falske positive) krever større utvalg. (2) Statistisk styrke typisk 80 %–90 % — høyere styrke krever større utvalg. (3) Minimum Detectable Effect (MDE) — jo mindre effekt man vil kunne oppdage, desto større utvalg trengs (utvalgsstørrelsen øker omtrent omvendt proporsjonalt med kvadratet av MDE). (4) Variansen / baseline-konverteringsraten — for en andel inngår p(1-p) i variansen. En lav baseline-konverteringsrate (f.eks. 2 %) krever et betydelig større utvalg for å oppdage en gitt relativ forbedring enn en høy baseline (f.eks. 40 %), fordi det absolutte antallet konverteringer som trengs for statistisk pålitelighet er høyere. I praksis kombineres disse i en power-analyse for å beregne antall observasjoner per variant før testen startes, slik at man unngår undermaktede («underpowered») tester.
Space / Enter for å snu