Sensordata fra Garmin løpeklokke

Datasettet garmindata.csv har vi lastet ned fra en personlig brukerkonto på connect.garmin.com. Datasettet består av sensormålinger fra 56 løpeturer, f.eks. tid, avstand, høydemeter, stegfreksens og puls. I tillegg regner løpeklokkens programvare ut andre størrelser slik som estimert kaloriforbuk. Vi er hovedsakelig interresert i sammenhengen mellom tid og distanse.

Tips: Dersom du har en egen treningsklokke kan du selvfølgelig benytte deg av dine egne data!

Læringsmål: Korrelasjon og minste kvadratsums rette linje (regresjonslinje)

Delmål

  1. Laste inn og behandle et komplekst datasett
  2. Plotte kryssplott, identifisere og håndtere uteliggere
  3. Regne ut korrelasjon og regresjonslinje

Hva er relevant for tellende vurdering? Erfaringen med å håndtere datasett i Python får du nytte av i den tellende prosjektoppgaven, og i resten av utdanningen din. Du skal ikke skrive kode selv på eksamen, men du må kunne lese, tolke og forklare utskrift og plott fra ulike statistikk-beregninger i Python.

Steg 1: Laste inn nødvendige python-moduler

Steg 2: Lese inn og behandle data

Merk at kolonnen 'Time' inneholder tid på formatet timer:minutter:sekunder. Dette må vi kode om til desimaltall, og det mest naturlige er å bruke minutter som enhet.

Steg 2: Kryssplott og kvalitetskontroll

Tabellen vi har lastet inn er for stor til at vi klarer å kvalitetssjekke observasjoner og få et inntrykk av dataene. Siden vi hovedsakelig er interessert i sammenhengen mellom tid og distanse plotter vi et kryssplott av disse observasjonene.

Steg 3: Korrelasjon og regresjonslinje

Bonus: illustrasjon av datasett med lavere korrelasjon