Lineær regresjon og tilpasning av funksjoner til data.
I virkeligheten har vi ofte data som ikke følger en eksakt funksjon. Regresjon er en metode for å finne en funksjon som passer best mulig til et sett med datapunkter.
Lineær regresjon finner den rette linjen som passer best til dataene. Denne metoden brukes mye i forskning, økonomi og mange andre felt.
- kalles regresjonskoeffisienten eller stigningstallet
- kalles konstantleddet
Linjen kalles regresjonslinje eller trendlinje.
Den vanligste metoden for å finne regresjonslinjen er minste kvadraters metode. Denne minimerer summen av kvadratene av avstandene fra datapunktene til linjen.
I praksis bruker vi digitale verktøy som GeoGebra, Excel eller kalkulator til å beregne regresjonslinjen.
En undersøkelse måler sammenhengen mellom studietid og eksamenskarakter:
| Timer studert (x) | 2 | 4 | 5 | 7 | 8 |
|---|---|---|---|---|---|
| Karakter (y) | 3 | 4 | 4 | 5 | 6 |
Vi plotter punktene og bruker GeoGebra til å finne regresjonslinjen.
I GeoGebra:
1. Skriv inn punktene som en liste: Punktliste = {(2,3), (4,4), (5,4), (7,5), (8,6)}
2. Bruk kommandoen: RegLin[Punktliste]
GeoGebra gir oss:
Ved 6 timers studietid:
Svar: Estimert karakter ved 6 timers studietid er ca. 5.
Bruk GeoGebra til å finne regresjonslinjen for dataene.
Korrelasjonskoeffisienten måler hvor godt dataene følger en lineær sammenheng:
- : Perfekt positiv korrelasjon (alle punkter på en stigende linje)
- : Perfekt negativ korrelasjon (alle punkter på en synkende linje)
- : Ingen lineær sammenheng
Generelt:
- : Sterk korrelasjon
- : Moderat korrelasjon
- : Svak korrelasjon
Et datasett gir korrelasjonskoeffisient . Hva betyr dette?
betyr:
- Det er en positiv korrelasjon (r > 0) - når x øker, øker y
- Korrelasjonen er sterk (|r| > 0,7)
- Dataene følger ganske godt en lineær trend
Men husk: Korrelasjon betyr ikke nødvendigvis årsakssammenheng!
Hvilken type korrelasjon forventer du?
Høyde og vekt hos voksne
Alder på bil og verdi
Temperatur og salg av is
Øvingstimer og antall feil på prøve
Når vi har funnet en regresjonslinje, kan vi bruke den til å estimere verdier:
- Interpolasjon: Estimere verdier innenfor dataintervallet (relativt pålitelig)
- Ekstrapolasjon: Estimere verdier utenfor dataintervallet (mer usikkert)
Viktig: Regresjonslinjen er bare en modell. Jo lenger utenfor dataområdet vi går, desto mer usikker blir estimeringen.
Data viser sammenhengen mellom antall ansatte og årlig omsetning (i millioner kr):
| Ansatte | 5 | 10 | 15 | 20 | 25 |
|---|---|---|---|---|---|
| Omsetning | 2 | 5 | 7 | 10 | 13 |
Estimer omsetningen for en bedrift med 18 ansatte.
Er det trygt å bruke modellen for å estimere for 100 ansatte? Begrunn.
Temperaturdata for en vårdag (kl. 6-18):
For å vurdere om regresjonsmodellen er god:
1. Se på korrelasjonskoeffisienten - jo nærmere er 1, desto bedre passer linjen
2. Plot residualer - avvikene fra linjen bør være tilfeldige, ikke følge et mønster
3. Bruk sunn fornuft - gir modellen mening i konteksten?
En regresjon gir med .
Er sammenhengen positiv eller negativ?
Er modellen god? Begrunn.
Hva betyr konstantleddet 10?
Sammenheng mellom pris og etterspørsel:
| Pris (kr) | 50 | 60 | 70 | 80 | 90 | 100 |
|---|---|---|---|---|---|---|
| Solgte enheter | 200 | 180 | 150 | 130 | 100 | 80 |
Tolk stigningstallet i denne sammenhengen.
Ved hvilken pris er etterspørselen null ifølge modellen?
Befolkningsdata for en by:
Kritisk tenkning om regresjon:
Det er sterk korrelasjon mellom iskremssalg og drukning. Betyr dette at is forårsaker drukning?
Hvorfor kan det være farlig å ekstrapolere langt utenfor dataområdet?
Hva bør du alltid gjøre før du bruker en regresjonsmodell?
Eget prosjekt: Samle inn data og analyser.
Velg to variabler du tror henger sammen (f.eks. søvn og konsentrasjon, trening og humør).
Samle inn minst 10 datapunkter.
Finn regresjonslinjen og korrelasjonskoeffisienten.
Skriv en kort rapport der du tolker resultatene.