Fikse data

Dette dokumentet viser hvordan vi har kommet oss fra den store filen med data (originale data fra SSV), og til en mindre og mer håndterbar fil som kun består av informasjonen vi er interesserte i for oppgave.

Første steg er å hente inn hele den store filen:

Vi skal nå hente det vi trenger for å lære mer om endringen i spordybde på E14. For hver $20$ meter lange del av veien vil vi derfor ha:

Vi har snakket med noen som kan mye om disse dataene, og har kommet frem til at kolonnene vi vil hente ut er: year, SPORDYBDE, AADT, MASSETYPE, width og X (X skal ikke brukes i analysen, men er nyttig for å plotte dataene, og forteller oss hvor på veien hver måling er gjort).

Nå har vi et datasett som inneholder kun den informasjonen vi trenger. Neste steg er å hente ut endringen i spordybde fra 2019 til 2020, og den finner vi ganske enkelt ved å trekke spordybden i 2020 fra spordybden i 2019 for hver enkelt veistrekning. Samtidig vil vi ta vare på spordybden i 2019, trafikkintensiteten for hver veistrekning, asfalttypen for hver veistrekning, veibredden for hver veistrekning, og posisjonen til hver veistrekning (vi bruker avstand fra der målingene starter (Stjørdal) til dette). Vi gir også dataene nye navn. I tillegg lager vi en variabel som gir oss sporing per ti tusen biler.

Det siste vi nå vil sjekke er om vi mangler noen av dataene.

Vi mangler visst 17 datapunkter, så da vil vi sjekke hvilke.

Vi mangler altså veibredden for 17 datapunkter (som betyr 17 20-meters veistrekninger). Dette kan vi enten ignorere, da vil modellene vi senere skal tilpasse ikke kunne bruke veibredde for akkurat disse strekningene, og det er ganske vanlig å tilpasse modeller med manglende data. Vi har sjelden fullstendige datasett i den virkelige verden.

Men, vi har lyst på et fullstendig datasett, og vil derfor se om vi kan få tak i informasjon om veibredden der den mangler i datasettet.

Vi starter med å plotte veibredden som funksjon av avstand. Først hele strekningen, og deretter kun områdene rundt der vi mangler data.

Vi ser at veisegmentene der vi mangler data er etter hverandre. Det får oss til å tenke at det ikke er helt tilfeldig at det er her dataene mangler. Vi ser også at veien blir smalere i det området vi mangler data.

Vi snakker igjen med noen som kan mye om dataene og situasjonen, som heldigvis har en løsning for oss i akkurat dette tilfellet (flaks!). Det viser seg at det er en feil med selve filen vi har som gjør at dataene mangler, og problemet er ikke at de ikke har målinger. Vi får beskjed om at de første 200 meterne av veistrekket med manglende data har bredde 5.4 meter (som er bredden før vi mangler data), og 3.3 meter de siste 140 meterne (som er bredden på veien etter strekket med manglende data).

Så da putter vi denne informasjonen inn i datasettet vårt:

Nå mangler vi ikke lenger noen verdier i datasettet vårt, og vi er fornøyde.

Merk at dette absolutt ikke alltid vil være tilfellet. Det er mye data vi kan mangle der ingen har intuisjon eller fasitsvar til oss om hvordan data vi mangler skal se ut, og vi må være veldig forsiktige med å erstatte manglende data.

Før vi sier oss helt ferdige med datasettet må vi lagre det, det gjør vi på følgende måte:

Og da er vi endelig klare for å se gjøre analyse av dataene! Tilbake til oppgavesettet!