Bruke Bayes' setning til å oppdatere sannsynligheter.
Bayes' setning lar oss "snu" betingede sannsynligheter. Hvis vi kjenner , kan vi beregne .
Praktisk betydning: Vi starter med en forhandsantakelse (prior) om sannsynligheten for noe, far ny informasjon, og oppdaterer til en etterantakelse (posterior).
Eksempler:
- En pasient tester positivt for en sykdom. Hva er sannsynligheten for at pasienten faktisk er syk?
- Et produkt er defekt. Hvilken maskin produserte det mest sannsynlig?
- En e-post inneholder ordet "gratis". Er det spam?
Fra definisjonen av betinget sannsynlighet har vi:
Vi vet ogsa at
Ved a sette dette inn far vi Bayes' setning:
Der:
- = Prior (forhands-sannsynlighet for A)
- = Posterior (etterantakelse, oppdatert sannsynlighet)
- = Likelihood (sannsynligheten for a observere B gitt A)
- = Marginal (total sannsynlighet for B)
Med totalsetningen:
Et viktig bruksomrade for Bayes' setning er medisinsk diagnostikk.
Viktige begreper:
- Sensitivitet: - andel syke som tester positivt
- Spesifisitet: - andel friske som tester negativt
- Prevalens: - andel av befolkningen som er syk
- Positiv prediktiv verdi (PPV): - sannsynlighet for a vaere syk gitt positiv test
En test for en sjelden sykdom har folgende egenskaper:
- Sensitivitet: 99% (99% av syke tester positivt)
- Spesifisitet: 95% (95% av friske tester negativt)
- Prevalens: 0,1% av befolkningen har sykdommen
En tilfeldig person tester positivt. Hva er sannsynligheten for at personen faktisk er syk?
La:
- = syk
- = positiv test
Gitt:
- (prevalens)
- (sensitivitet)
- (falsk positiv rate)
Trediagram:
````
Befolkning
│
┌──────────────┴──────────────┐
│ │
Syk (0,001) Frisk (0,999)
│ │
┌────┴────┐ ┌────┴────┐
│ │ │ │
+ (0,99) - (0,01) + (0,05) - (0,95)
Totalsetningen for :
Bayes' setning:
Overraskende resultat: Selv med en positiv test er det bare ca. 2% sjanse for a vaere syk!
Dette skyldes at sykdommen er sa sjelden at antall falske positive (fra de mange friske) overstiger antall sanne positive.
Eksempelet over illustrerer et viktig fenomen: base rate fallacy (grunnsats-feilen).
Intuisjonen sier at en 99% noyaktig test burde gi hoye sannsynligheter for a vaere syk ved positiv test. Men nar sykdommen er sjelden (lav prevalens), dominerer falske positive.
Hovedregel: Ved sjeldne tilstander ma selv svart gode tester ofte bekreftes med tilleggstester.
En test for en sykdom har sensitivitet 95% og spesifisitet 90%. I en populasjon er 5% smittet. Hva er sannsynligheten for at en person som tester positivt faktisk er syk?
I oppgave 5.3.1, hva er sannsynligheten for at en person som tester negativt faktisk er frisk? (Negativ prediktiv verdi)
Bayes' setning brukes ogsa i kvalitetskontroll for a identifisere kilden til defekte produkter.
En fabrikk har tre maskiner som produserer elektroniske komponenter:
- Maskin A: 50% av produksjonen, 2% defektrate
- Maskin B: 30% av produksjonen, 3% defektrate
- Maskin C: 20% av produksjonen, 4% defektrate
En tilfeldig valgt komponent er defekt. Hvilken maskin produserte den mest sannsynlig?
La = defekt, og , , = produsert av maskin A, B, C.
Gitt:
- ,
- ,
- ,
Totalsetningen for :
Bayes for hver maskin:
Maskin A er mest sannsynlig kilde til den defekte komponenten, selv om den har lavest defektrate. Dette skyldes at A produserer mest.
Kontroll: ✓
En bedrift har to leverandorer. Leverandor X leverer 60% av varene med 5% defektrate. Leverandor Y leverer 40% med 8% defektrate. Et tilfeldig valgt produkt er defekt. Hva er sannsynligheten for at det kom fra leverandor X?
I oppgave 5.3.3, hvis bedriften skal redusere defektraten, hvilken leverandor bor de fokusere pa forst? Begrunn svaret.
Bayes' setning kan brukes gjentatte ganger for a oppdatere sannsynligheter etter hvert som ny informasjon kommer inn.
Prosessen:
1. Start med prior
2. Observerer , oppdaterer til
3. Observerer , oppdaterer til
4. Osv.
En eske inneholder enten 3 rode og 1 bla kule (type R) eller 1 rod og 3 bla kuler (type B). Det er 50% sjanse for hver type. En kule trekkes tilfeldig og er rod. Kulen legges tilbake. En ny kule trekkes og er ogsa rod. Hva er sannsynligheten for at esken er av type R?
La = eske av type R (3 rode, 1 bla).
Utgangspunkt (prior):
Forste trekning (rod kule):
Totalsetning:
Bayes etter 1. trekning:
Andre trekning (ogsa rod):
Ny prior: ,
Totalsetning:
Bayes etter 2. trekning:
Etter to rode kuler er sannsynligheten for type R 90%.
I eksempel 3, hva ville sannsynligheten for type R vaert hvis tredje trekning ogsa var rod?
En mynt er enten rettferdig (50% kron) eller falsk (80% kron). Startantakelsen er 70% sjanse for rettferdig mynt. Mynten kastes to ganger og viser kron begge ganger. Hva er den oppdaterte sannsynligheten for at mynten er rettferdig?
Bayes' setning brukes i mange felt:
Medisin:
- Tolkningav testresultater
- Vurdering av risikofaktorer
Spamfiltre:
- Klassifisere e-post basert pa ordbruk
Juss:
- Vurdere bevis i rettssaker
Maskinlaering:
- Naive Bayes klassifiserere
- Bayesiansk inferens
Et spamfilter vet at 30% av alle e-poster er spam. Ordet "gratis" forekommer i 80% av spam-meldinger og 10% av legitime meldinger. En e-post inneholder "gratis". Hva er sannsynligheten for at det er spam?
En DNA-test i en kriminalsak gir "match" med den mistenkte. Testen har 99,9% sensitivitet (finner riktig person) og 99,99% spesifisitet (avviser uskyldige). I en by med 1 million innbyggere er en person skyldig.
Hva er sannsynligheten for at den mistenkte er skyldig gitt DNA-match?
Kommen terer resultatet. Er DNA-beviset sterkt nok alene?
Et forsikringsselskap vet at 10% av forere er "hoyrisikoforere" som har 20% arlig ulykkessannsynlighet. De resterende 90% er "lavrisikoforere" med 5% ulykkessannsynlighet. En ny kunde har en ulykke forste ar. Hva er sannsynligheten for at kunden er hoyrisiko? Hva er sannsynligheten for ulykke neste ar?
En elev gjetter pa en flervalgsoppgave med 4 alternativer. 60% av elevene kan stoffet og svarer riktig 90% av gangene. De resterende 40% gjetter tilfeldig. En elev svarer riktig. Hva er sannsynligheten for at eleven faktisk kan stoffet?
Tre bokser ser like ut. Boks A inneholder 2 gullmynter. Boks B inneholder 1 gullmynt og 1 solvmynt. Boks C inneholder 2 solvmynter. En boks velges tilfeldig, og en mynt trekkes tilfeldig fra boksen. Mynten er gull. Hva er sannsynligheten for at den andre mynten i boksen ogsa er gull?
En vaermelding sier at det er 40% sjanse for regn i morgen. Historisk sett stemmer vmeldingen 80% av gangene (bade nar den sier regn og nar den sier ikke regn). I dette omradet regner det generelt 30% av dagene.
Hva er den faktiske sannsynligheten for regn i morgen, gitt vmeldingen?
Burde du ta med paraply?
Bayes' setning:
Tolkning:
- Prior : Det vi tror for vi far ny info
- Posterior : Oppdatert tro etter ny info
- Likelihood : Hvor typisk er B gitt A
Viktige anvendelser:
- Medisinsk diagnostikk (tolke testresultater)
- Kvalitetskontroll (finne feilkilder)
- Spamfiltrering
- Forsikring og risiko
Hovedinnsikt: Nar noe er sjeldent (lav prior), ma bevisene vaere svart sterke for a gi hoy posterior.