Selvstendig arbeid med naturvitenskapelige data.
I de forrige kapitlene har vi lært om eksponentiell og logistisk vekst som teoretiske modeller. Nå skal vi bruke disse modellene på virkelige data.
Utfordringer med reelle data:
- Data inneholder alltid noe tilfeldig variasjon (støy)
- Vi kjenner ikke parameterne (, , osv.) på forhånd
- Flere modeller kan passe rimelig bra
- Modeller har alltid begrensninger
I dette kapitlet lærer vi å:
1. Velge riktig modell basert på dataenes form
2. Finne parametere ved regresjonsanalyse
3. Vurdere hvor god modellen er
4. Tolke og presentere resultatene
Før vi tilpasser en modell, må vi velge hvilken type modell som passer. Dette gjør vi ved å se på formen på dataene.
Lineær vekst:
- Konstant økning per tidsenhet
- Rett linje i vanlig diagram
- Eksempel: Fast lønnstillegg hvert år
Eksponentiell vekst:
- Konstant prosentvis økning
- Kurve som blir stadig brattere
- Rett linje i semilogaritmisk diagram
- Eksempel: Rentes rente, tidlig fase av epidemi
Logistisk vekst:
- S-formet kurve
- Flater ut mot en øvre grense
- Eksempel: Spredning av produkt, epidemi i befolkning
Polynomisk vekst:
- Vekst som øker, men ikke så raskt som eksponentiell
- Eksempel: Areal som funksjon av radius
Se på følgende datasett og vurder hvilken modelltype som passer best:
Datasett A: Antall brukere av en ny app
| Uke | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| Brukere (tusen) | 2 | 6 | 18 | 50 | 120 | 200 |
| Måned | Jan | Feb | Mar | Apr | Mai | Jun |
|---|---|---|---|---|---|---|
| Temp (°C) | -3 | -1 | 4 | 9 | 14 | 18 |
Datasett A (App-brukere):
- Fra uke 1-3: vekst er ca. 3x per uke (eksponentiell-lignende)
- Fra uke 4-6: veksten bremser (50→120→200)
- Kurven ser ut til å flate ut
Konklusjon: Logistisk modell passer sannsynligvis best. Veksten starter raskt og bremser, typisk for spredning av app/produkt.
Datasett B (Temperatur):
- Økning per måned: +2, +5, +5, +5, +4
- Relativt jevn økning, lineær-lignende
- Men temperaturer følger ofte en sinuskurve over hele året
Konklusjon: Lineær modell for denne perioden (vår), men en sinusmodell ville vært bedre for hele året.
Regresjon er en metode for å finne den modellen som best tilpasses dataene. Vi bruker ofte minste kvadraters metode, som minimerer summen av kvadrerte avvik mellom data og modell.
I praksis bruker vi digitale verktøy som GeoGebra, Excel eller kalkulator til å utføre regresjon.
Tolkning:
- : Perfekt tilpasning (alle punkter på kurven)
- : Modellen forklarer ingenting
- : Svært god tilpasning
- : God tilpasning
- : Svak tilpasning
1. Høy betyr ikke at modellen er riktig. En komplisert modell kan gi høy uten å fange den virkelige sammenhengen.
2. Ekstrapolering er risikabelt. Modellen er bare pålitelig innenfor dataområdet. Å forutsi langt utenfor kan gi feil.
3. Korrelasjon er ikke kausalitet. Selv om dataene passer en modell, betyr det ikke at x forårsaker y.
4. Sjekk residualene. Se om avvikene er tilfeldig fordelt eller har mønster.
Når dataene ser ut til å følge eksponentiell vekst, tilpasser vi modellen:
eller ekvivalent:
der .
Befolkningen i en by (i tusen):
| År etter 2000 | 0 | 5 | 10 | 15 | 20 |
|---|---|---|---|---|---|
| Befolkning | 50 | 58 | 67 | 78 | 90 |
c) Hva forutsier modellen for 2030?
a) Vi bruker GeoGebra eller kalkulator til eksponentiell regresjon.
Dataene gir omtrent:
(svært god tilpasning)
b) Vekstfaktoren er , som betyr:
c) For 2030 er :
OBS: Dette forutsetter at veksten fortsetter eksponentielt, noe som sjelden skjer i praksis.
Skriv inn datapunktene som en liste og bruk FitExp-kommandoen.
Utfør eksponentiell regresjon på datasettene.
Et innskudd over tid: År 0: 10000, År 3: 11600, År 6: 13400, År 9: 15500. Finn modellen og renten.
Bakterievekst: Time 0: 100, Time 2: 400, Time 4: 1600, Time 6: 6400. Finn modellen.
For dataene i b), finn doblingstiden ved formelen .
Når dataene flater ut mot en øvre grense, bruker vi logistisk regresjon:
der er bærekapasiteten (asymptoten).
Kumulativt antall COVID-tilfeller i et land (i tusen):
| Dag | 0 | 10 | 20 | 30 | 40 | 50 | 60 |
|---|---|---|---|---|---|---|---|
| Tilfeller | 1 | 5 | 25 | 100 | 250 | 400 | 480 |
c) Estimer bærekapasiteten (totalt antall tilfeller).
a) Dataene viser typisk logistisk mønster:
- Tidlig: Rask, nesten eksponentiell vekst (1→5→25)
- Midtfase: Høy vekst (100→250)
- Senfase: Veksten bremser (400→480)
Kurven flater ut, noe som tyder på at vi nærmer oss bærekapasiteten.
b) Logistisk regresjon i GeoGebra (FitLogistic) gir omtrent:
c) Bærekapasiteten er tusen.
Tolkning: Modellen forutsier at totalt ca. 500 000 vil bli smittet i denne bølgen.
Forsiktighet: Bærekapasiteten i smittemodeller avhenger av tiltak og atferdsendringer, så den kan endre seg!
Arbeid med logistisk regresjon.
Salg av et nytt produkt (tusen): Måned 1: 5, Måned 3: 40, Måned 6: 150, Måned 9: 280, Måned 12: 350. Tilpass logistisk modell.
For modellen i a), finn vendepunktet og maksimal salgshastighet.
Når vil 90% av bærekapasiteten være nådd?
En god modell skal:
1. Passe godt til dataene (høy )
2. Ha rimelige parameterverdier
3. Gi fornuftige prediksjoner
4. Ha tilfeldig fordelte residualer
1. Overfitting: Å bruke for komplisert modell som følger støy i dataene.
2. Ekstrapolering: Å forutsi langt utenfor dataområdet. En modell som passer godt i dag, kan gi helt feil prediksjoner for fremtiden.
3. Ignorere kontekst: Matematisk god tilpasning er ikke nok. Modellen må gi mening i den virkelige situasjonen.
4. Anta konstante forhold: Vekstrater og bærekapasitet kan endre seg over tid.
En eksponentiell modell beskriver veksten i et selskap fra år 0 til år 10.
a) Hva forutsier modellen for år 50?
b) Diskuter hvorfor denne prediksjonen sannsynligvis er feil.
c) Hvilken modell ville vært mer realistisk?
a)
Modellen forutsier 117 ganger startverdi etter 50 år.
b) Problemer med prediksjonen:
1. Markedsbegrensninger: Intet marked er uendelig. Etterspørselen vil nå et tak.
2. Konkurranse: Andre aktører vil komme inn hvis markedet er attraktivt.
3. Ressurser: Selskapet vil møte begrensninger i kapasitet, ansatte, kapital.
4. Historisk erfaring: Få selskaper vokser eksponentielt i 50 år.
c) Mer realistisk modell:
En logistisk modell med bærekapasitet ville vært mer realistisk:
der representerer markedets størrelse eller selskapets maksimale kapasitet.
Vurder modellenes gyldighet.
En lineær modell beskriver global temperatur fra 1900 til 2000. Hva forutsier den for år 2200? Diskuter rimelighet.
En logistisk modell for verdens befolkning har milliarder. Hvilke faktorer kan endre ?
Et datasett har for eksponentiell modell og for logistisk. Hvilken bør du velge?
Når du presenterer modellering, bør du inkludere:
1. Beskrivelse av dataene: Hva måles? Hvor kommer dataene fra?
2. Begrunnelse for modellvalg: Hvorfor valgte du denne modellen?
3. Modellen med parametere: Vis formelen med tall
4. Tilpasningsmål: eller annen kvalitetsmåling
5. Tolkning: Hva betyr parameterne? Hva sier modellen?
6. Begrensninger: Når gjelder modellen? Hva kan den ikke si?
7. Konklusjon: Svar på spørsmålet som ble stilt
Skriv en kort modelleringsrapport for følgende data:
Antall registrerte el-biler i Norge (tusen):
| År | 2015 | 2017 | 2019 | 2021 | 2023 |
|---|---|---|---|---|---|
| Antall | 70 | 140 | 260 | 450 | 700 |
1. Data:
Antall registrerte el-biler i Norge fra 2015 til 2023. Kilde: Statistisk sentralbyrå.
2. Modellvalg:
Dataene viser S-formet vekst som tyder på logistisk modell. Veksten bremser etter hvert som markedet nærmer seg metning.
3. Modell:
Logistisk regresjon gir:
4. Tilpasning:
(svært god)
5. Tolkning:
- Bærekapasitet: Ca. 1,2 millioner el-biler
- Vekstrate: per år
- Vendepunkt: Ca. 2023, da veksten var raskest
6. Begrensninger:
- Bærekapasiteten kan endre seg med infrastruktur og politikk
- Modellen tar ikke hensyn til økonomiske kriser eller teknologiske gjennombrudd
7. Konklusjon:
El-bil-markedet i Norge nærmer seg metning rundt 1,2 millioner. Veksten vil fortsette, men bremse de neste årene.
Lag en modelleringsrapport for datasettet.
Strømmeabonnenter i en tjeneste (millioner): 2018: 5, 2019: 12, 2020: 30, 2021: 55, 2022: 75, 2023: 88. Velg modell og tilpass.
Forklar valget av modell og tolk parameterne.
Forutsi antall abonnenter i 2025. Diskuter usikkerheten.
Skriv inn dine egne datapunkter og sammenlign lineær, eksponentiell og logistisk tilpasning.
Åpne modelleringsoppgaver.
Finn et datasett på SSB.no eller en annen kilde. Velg data som kan modelleres med eksponentiell eller logistisk vekst.
Tilpass en passende modell og beregn .
Skriv en kort rapport (ca. 200 ord) der du tolker resultatene og diskuterer begrensninger.
Velge modell:
- Lineær: Konstant økning
- Eksponentiell: Konstant prosentvis økning
- Logistisk: S-kurve med øvre grense
Regresjonsanalyse:
- FitLine, FitExp, FitLogistic i GeoGebra
- måler tilpasningskvalitet
Kritisk vurdering:
- Høy betyr ikke nødvendigvis god modell
- Ekstrapolering er risikabelt
- Kontekst og rimelighet er viktig
Presentasjon:
- Beskriv data og modellvalg
- Vis modell med parametere og
- Tolk resultater og diskuter begrensninger