Analysere virkelige datasett med matematikk.
I den virkelige verden har vi ofte tilgang til maledata fra eksperimenter, observasjoner eller statistikk. Matematisk modellering handler om å finne matematiske funksjoner som beskriver disse dataene på en god mate.
Hvorfor modellere data?
- Forstae sammenhenger: Se monstre og trender i dataene
- Gjore spaadom: Anslaa verdier utenfor maleomradet
- Ta beslutninger: Basert på matematiske analyser
- Kommunisere: Presentere funn på en presis mate
I dette kapitlet laerer du a:
1. Velge riktig regresjonstype
2. Bruke digitale verktøy til regresjon
3. Vurdere modellens kvalitet
4. Skille mellom interpolasjon og ekstrapolasjon
Regresjon er en statistisk metode for å finne en funksjon som best tilpasser seg et sett med datapunkter. Malet er a minimere avstanden mellom funksjonen og datapunktene.
der er datapunktene og er funksjonsverdien.
Denne metoden gir den "beste" tilpasningen i statistisk forstand.
Ved lineær regresjon tilpasser vi en rett linje til dataene. Dette er den enkleste formen for regresjon og passer nar dataene viser en tilnaermet lineær sammenheng.
der og er gjennomsnittene.
Tabellen viser befolkningen i en norsk by (i tusen):
| Ar | 2010 | 2012 | 2014 | 2016 | 2018 | 2020 |
|---|---|---|---|---|---|---|
| Befolkning | 45.2 | 47.1 | 49.3 | 51.0 | 53.2 | 55.1 |
La være antall år etter 2010. Da har vi datapunktene:
Ved a bruke GeoGebra/kalkulator far vi:
b) Estimat for 2025
For 2025 er :
Befolkningen i 2025 anslaps til ca. 60 000.
Merk: Dette er en ekstrapolasjon (utenfor maleomradet), sa anslaget er usikkert.
Tabellen viser gjennomsnittlig arstemperatur i en by (i C):
| Ar | 2015 | 2016 | 2017 | 2018 | 2019 | 2020 |
|---|---|---|---|---|---|---|
| Temp | 7.2 | 7.5 | 7.8 | 8.0 | 8.1 | 8.4 |
Nar data viser prosentvis vekst eller nedgang, passer ofte en eksponentiell modell:
eller på eksponentialform:
der .
- Befolkningsvekst
- Radioaktiv nedbrytning
- Rentevekst
- Spredning av sykdommer
- Teknologisk utvikling (Moores lov)
Kjennetegn: Dataene viser tilnaermet konstant prosentvis endring.
I et eksperiment males antall bakterier i en kultur:
| Timer (t) | 0 | 2 | 4 | 6 | 8 |
|---|---|---|---|---|---|
| Antall (N) | 1000 | 1480 | 2190 | 3240 | 4790 |
c) Estimer antall bakterier etter 12 timer.
Ved a bruke eksponentiell regresjon i GeoGebra far vi:
eller tilsvarende
b) Doblingstid
Doblingstiden finnes ved :
c) Antall etter 12 timer
Etter 12 timer er det ca. 11 000 bakterier.
En radioaktiv prove har folgende aktivitet (i Becquerel):
| Dager | 0 | 5 | 10 | 15 | 20 |
|---|---|---|---|---|---|
| Aktivitet | 800 | 565 | 400 | 283 | 200 |
c) Nar er aktiviteten redusert til 50 Bq?
Nar data har krumning som ikke passer lineært eller eksponentielt, kan vi bruke polynomer:
- Andregrads (parabel):
- Tredjegrads:
- Hoyere grader: Brukes sjeldnere
Jo hoyere grad, jo bedre tilpasning til dataene - men ogsa storre risiko for overtilpasning.
Et polynom av hoey nok grad vil ga gjennom alle datapunktene, men det betyr ikke at modellen er god!
Overtilpasning (overfitting) oppstar nar modellen fanger opp stoy i dataene i stedet for den underliggende trenden. En god modell skal være enkel nok til a generalisere.
En ball kastes oppover. Hoeyden (i meter) males ved ulike tidspunkt:
| Tid (s) | 0 | 0.5 | 1.0 | 1.5 | 2.0 | 2.5 |
|---|---|---|---|---|---|---|
| Hoeyde (m) | 1.5 | 6.3 | 9.1 | 9.9 | 8.7 | 5.5 |
c) Finn maksimal hoeyde og nar den nas.
Bevegelse under tyngdekraften følger:
Dette er en andregradsfunksjon med negativt ledende koeffisient.
b) Regresjonsmodell
Ved andregradstilpasning i GeoGebra:
c) Maksimal hoeyde
Toppunktet finnes der :
Maksimal hoeyde:
Ballen nar maksimal hoeyde 6.4 m etter 1 sekund.
Bremselengden (i meter) for en bil ved ulike hastigheter:
| Hastighet (km/h) | 30 | 50 | 70 | 90 | 110 |
|---|---|---|---|---|---|
| Bremselengde (m) | 6 | 15 | 28 | 45 | 66 |
c) Ved hvilken hastighet er bremselengden 80 m?
I praksis bruker vi alltid digitale verktøy for regresjon. Her er de vanligste:
GeoGebra:
1. Lag en liste med x-verdier: L1 = {x1, x2, ...}
2. Lag en liste med y-verdier: L2 = {y1, y2, ...}
3. Bruk kommandoer som:
- RegLin(L1, L2) - lineær regresjon
- RegExp(L1, L2) - eksponentiell regresjon
- RegPoly(L1, L2, n) - polynom av grad n
Kalkulator (TI/Casio):
- Legg inn data i statistikkmodulen
- Velg regresjonstype
- Les av koeffisientene
Prov a legge inn data og utfore regresjon. Klikk på punkter for a se hvordan regresjonskurven tilpasses.
Malt CO2-konsentrasjon (ppm) ved Mauna Loa-observatoriet:
| Ar | 1960 | 1970 | 1980 | 1990 | 2000 | 2010 | 2020 |
|---|---|---|---|---|---|---|---|
| CO2 | 317 | 326 | 339 | 354 | 370 | 390 | 414 |
c) Estimer CO2-nivaet i 2030.
La være antall år etter 1960.
Lineaer: ()
Andregrads: ()
b) Beste modell
Andregradstilpasningen har hoyere og fanger opp at veksten akselererer. Den er fysisk rimelig fordi utslippene har okt over tid.
c) Estimat for 2030
For (ar 2030):
Lineaer: ppm
Andregrads: ppm
Andregradmodellen forutsier ca. 436 ppm i 2030.
Verdensrekorden på 100 m sprint (menn) over tid:
| Ar | 1912 | 1936 | 1968 | 1988 | 1999 | 2009 |
|---|---|---|---|---|---|---|
| Tid (s) | 10.6 | 10.2 | 9.95 | 9.92 | 9.79 | 9.58 |
c) Er dette realistisk? Diskuter begrensninger.
Et residual er forskjellen mellom observert verdi og modellens verdi:
der er observert verdi og er modellens predikerte verdi.
Tegn på darlig modell:
- Systematisk monster i residualene (f.eks. kurve)
- Store residualer
- Residualer som vokser med x
Tolkning:
- : Perfekt tilpasning
- : Modellen forklarer ingenting
- : Veldig god tilpasning
- : God tilpasning
angir andelen av variasjonen i som forklares av modellen.
For befolkningseksempelet (Eksempel 1) hadde vi modellen .
Beregn residualene og vurder modellen.
| x | 0 | 2 | 4 | 6 | 8 | 10 |
|---|---|---|---|---|---|---|
| y | 45.2 | 47.1 | 49.3 | 51.0 | 53.2 | 55.1 |
| x | |||
|---|---|---|---|
| 0 | 45.2 | 45.20 | 0.00 |
| 2 | 47.1 | 47.18 | -0.08 |
| 4 | 49.3 | 49.16 | 0.14 |
| 6 | 51.0 | 51.14 | -0.14 |
| 8 | 53.2 | 53.12 | 0.08 |
| 10 | 55.1 | 55.10 | 0.00 |
For bakterieeksempelet (Eksempel 2) hadde vi .
a) Beregn residualene for .
b) Vurder om modellen passer godt.
Nar vi bruker en modell til a anslaa verdier, skiller vi mellom to tilfeller:
Ekstrapolasjon: Anslae verdier utenfor maleomradet.
- Usikre anslag
- Modellen er ikke testet i dette omradet
- Risiko for store feil
Tommelregel: Vaer forsiktig med ekstrapolasjon, saerlig langt utenfor maleomradet!
En elev maler temperaturen i en kopp kaffe mens den kjoeles ned:
| Tid (min) | 0 | 5 | 10 | 15 | 20 |
|---|---|---|---|---|---|
| Temp (C) | 80 | 65 | 54 | 45 | 38 |
b) Hva er problemet med denne spaadomsn?
C
b) Problemet
Modellen forutsier negativ temperatur, noe som er fysisk umulig for en kopp kaffe i romtemperatur!
Forklaring:
Avkjoling av kaffe følger Newtons avkjolingslov:
Temperaturen naermer seg romtemperaturen asymptotisk. Den lineære modellen er bare god for kort tid.
Dette illustrerer faren ved ekstrapolasjon langt utenfor maleomradet.
1. Fysisk rimelighet: Gir modellen mening? Kan temperaturen bli negativ?
2. Tidshorisont: Jo lengre ut du ekstrapolerer, jo storre usikkerhet.
3. Modellvalg: En modell som passer lokalt, passer ikke nodvendigvis globalt.
4. Konfidensintervaller: Ved ekstrapolasjon bor usikkerheten alltid oppgis.
Norges befolkning (i millioner):
| Ar | 1900 | 1950 | 1980 | 2000 | 2020 |
|---|---|---|---|---|---|
| Bef. | 2.2 | 3.3 | 4.1 | 4.5 | 5.4 |
c) Hvilken modell er mest rimelig? Begrunn.
Arlig minimum isutbredelse i Arktis (millioner km):
| Ar | 1980 | 1990 | 2000 | 2005 | 2010 | 2015 | 2020 |
|---|---|---|---|---|---|---|---|
| Is | 7.8 | 6.2 | 6.3 | 5.6 | 4.9 | 4.6 | 3.9 |
La være antall år etter 1980:
(, god tilpasning)
b) Isfritt Arktis
Setter :
Dette tilsvarer aret .
Viktig forbehold: Dette er en grov ekstrapolasjon. Klimasystemer er komplekse, og modellen tar ikke hensyn til tilbakekoblingsmekanismer eller tiltak mot klimaendringer.
Andel av nordmenn med smarttelefon (%):
| Ar | 2010 | 2012 | 2014 | 2016 | 2018 | 2020 |
|---|---|---|---|---|---|---|
| % | 30 | 55 | 75 | 85 | 92 | 95 |
Lineaer modell: Ville forutsi over 100% etter hvert, noe som er umulig.
Eksponentiell modell: Veksten avtar nar markedet mettes. Eksponentiell vekst passer bare i begynnelsen.
b) Bedre modell: Logistisk vekst
En logistisk funksjon passer:
der (maksimalt 100%).
Ved logistisk regresjon far vi omtrent:
der er antall år etter 2000.
Logistisk vekst kjennetegnes av:
- Sakte start
- Rask vekst i midtfasen
- Avtagende vekst nar metning naermer seg
Stroemforbruk i et hus malt gjennom et dogn (kWh):
| Kl. | 00 | 04 | 08 | 12 | 16 | 20 |
|---|---|---|---|---|---|---|
| kWh | 0.8 | 0.5 | 2.5 | 1.8 | 3.2 | 2.0 |
Norges BNP (milliarder NOK, faste 2015-priser):
| Ar | 2000 | 2005 | 2010 | 2015 | 2020 |
|---|---|---|---|---|---|
| BNP | 2450 | 2750 | 2900 | 3100 | 3050 |
c) Diskuter hvorfor BNP falt i 2020.
La være antall år etter 2000.
Lineaer tilpasning:
Eksponentiell tilpasning:
Begge gir , men ingen fanger fallet i 2020.
b) Gjennomsnittlig vekstrate
Fra eksponentiell modell: ca. 1.1% per ar
Eller direkte:
c) Diskusjon av 2020
BNP falt i 2020 på grunn av koronapandemien. Dette er et eksempel på en ekstern sjokk som modellen ikke kan forutsi. Maledata fra kriseperioder bor behandles forsiktig i modellering.
Malt effekt (kW) fra en vindturbin ved ulike vindhastigheter:
| v (m/s) | 3 | 5 | 7 | 9 | 11 | 13 |
|---|---|---|---|---|---|---|
| P (kW) | 15 | 70 | 190 | 400 | 730 | 1200 |
Teorien sier at vindkraft følger:
der er vindhastigheten. Vi forventer altsa .
b) Test med regresjon
Vi bruker potensregresjon eller tilpasser .
Ved regresjon far vi:
Eksponenten bekrefter teorien!
Konklusjon: Dataene stemmer godt med den teoretiske kubiske sammenhengen mellom vindhastighet og effekt.
Bilens drivstofforbruk (liter/mil) ved ulike hastigheter:
| Hastighet (km/h) | 50 | 70 | 90 | 110 | 130 |
|---|---|---|---|---|---|
| Forbruk (l/mil) | 0.52 | 0.48 | 0.50 | 0.58 | 0.72 |
Nar du presenterer en matematisk modell, bor du inkludere:
1. Datakilden: Hvor kommer dataene fra? Er de palitelige?
2. Modellvalg: Hvilken type modell ble valgt og hvorfor?
3. Modellens parametere: Skriv ut funksjonen med koeffisienter.
4. Tilpasningsmal: Oppgi eller andre kvalitetsmal.
5. Grafisk fremstilling: Vis data og modell sammen.
6. Residualanalyse: Er det systematiske avvik?
7. Gyldighetsomrade: Hvor gjelder modellen?
8. Usikkerhet: Vurder begrensninger og usikkerhet.
Skriv en kort rapport for befolkningsmodellen fra Eksempel 1.
1. Datakilde
Data fra SSB for befolkning i perioden 2010-2020.
2. Modellvalg
Lineaer modell valgt fordi dataene viser jevn vekst uten akselerasjon.
3. Modell
der er antall år etter 2010 og er befolkning i tusen.
4. Tilpasning
, noe som indikerer svært god tilpasning.
5. Residualanalyse
Residualene viser ingen systematisk monster og er alle under 0.15 (tusen).
6. Gyldighetsomrade
Modellen er gyldig for interpolasjon i perioden 2010-2020. Ekstrapolasjon utover 5-10 år er usikker.
7. Konklusjon
Befolkningen vokser med ca. 1000 personer per ar. Modellen kan brukes til kortsiktige prognoser.
Skriv en kort modellrapport for et av de tidligere eksemplene (bakterievekst, CO2-konsentrasjon, eller vindkraft). Inkluder alle punktene fra seksjonen om presentasjon.
To datasett fra USA viser:
| Ar | Iskremssalg (mill $) | Drukningsulykker |
|---|---|---|
| 2015 | 6.8 | 3200 |
| 2016 | 7.2 | 3400 |
| 2017 | 7.5 | 3550 |
| 2018 | 7.9 | 3700 |
| 2019 | 8.3 | 3850 |
Ved a plotte dataene og beregne, finner vi:
(svært sterk positiv korrelasjon)
b) Kausalitet?
Nei! Dette er et klassisk eksempel på spurios korrelasjon.
Begge variablene pavirkes av en tredje faktor: varmt vaer.
- Nar det er varmt, spiser folk mer iskrem
- Nar det er varmt, bader flere mennesker, og dermed skjer flere drukningsulykker
Konklusjon: Korrelasjon innebærer ikke kausalitet. Selv en perfekt matematisk sammenheng betyr ikke at den ene variabelen forarsaker den andre.
Hvilken type regresjon (lineær, eksponentiell, polynomisk) ville du brukt for folgende situasjoner? Begrunn valget.
a) Hoeyden til en plante som funksjon av tid (fra spaedeplante til voksen)
b) Akselerasjon av en bil fra stillstand
c) Befolkningsvekst i et utviklingsland
d) Temperatur i en stekeovn som varmes opp
Et firma maler antall solgte enheter av et nytt produkt:
| Maned | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| Salg | 120 | 180 | 260 | 350 | 420 | 470 |
c) Hvilken modell forutsier mest salg i maned 12?
Vannforingen i en elv (i ) varierer gjennom aret:
| Maned | Jan | Mar | Mai | Jul | Sep | Nov |
|---|---|---|---|---|---|---|
| 15 | 20 | 45 | 35 | 25 | 18 |
Beregn total vannmengde som renner forbi i løpet av et år.
Total vannmengde er integralet av vannføringen over ett år (12 måneder):
For a fa :
Konklusjon: Ca. 780 millioner kubikkmeter vann renner forbi i løpet av aret.
der er antall år etter 2000.
a) Finn og tolk denne.
b) Nar er befolkningsveksten størst?
La . Da er .
Tolkning: er vekstraten (antall tusen nye innbyggere per ar).
b) Maksimal vekst
For logistisk vekst er veksten maksimal nar , alts .
Befolkningsveksten er størst rundt år 2022.
a) Hva er starttemperaturen?
b) Hva naermer temperaturen seg nar ?
c) Finn og tolk fortegnet.
d) Nar synker temperaturen raskest?
der er timer etter soloppgang og er i watt.
a) Nar er effekten maksimal?
b) Beregn total energiproduksjon gjennom dagen (i kWh).
Nedenfor er temperaturen i en innsjoe malt på ulike dyp om sommeren:
| Dyp (m) | 0 | 2 | 4 | 6 | 8 | 10 |
|---|---|---|---|---|---|---|
| Temp (C) | 22 | 21 | 18 | 12 | 8 | 6 |
c) Bruk derivasjon til å finne ved hvilket dyp temperaturen synker raskest.
I dette kapitlet har du laert:
Regresjonstyper:
- Lineaer: - for jevn vekst/nedgang
- Eksponentiell: - for prosentvis vekst
- Polynomisk: - for mer komplekse monstre
Modellvurdering:
- Bruk for a male tilpasning
- Analyser residualer for systematiske avvik
- Vurder fysisk rimelighet
Interpolasjon vs ekstrapolasjon:
- Interpolasjon (innenfor data): Relativt sikkert
- Ekstrapolasjon (utenfor data): Krever forsiktighet
Presentasjon:
- Oppgi datakilde og modellvalg
- Vis graf med data og modell
- Diskuter gyldighetsomrade og usikkerhet
Derivasjon og integrasjon:
- Derivasjon gir endringsrate
- Integrasjon gir totalmengder