Oppgave 1: Regresjon Q1.1: a) Skriv ned ligningen for den estimerte regresjonsmodellen. Forklar de ulike elementene. b) Hvordan vil du tolke den estimerte verdien til skjæringpunktet (Intercept) beta0.hatt? Q1.2: a) Vi ser at for 'Hoeyde' er 'coef' lik 0.0199. Hva er formelen som er brukt for å regne ut denne verdien? Hvordan vil du forklare dette tallet til en medstudent som ikke har hørt om enkel lineær regresjon? b) For 'Hoeyde' er det også gitt de to tallene 0.013 og 0.027 under kolonnene "[0.025 0.975]". Hva er disse to tallene og hvordan tolker du tallene? c) Videre står det for 'Hoeyde' at 'P>|t|' er 0.000. Hvilken hypotese har man testet her? Hva er konklusjonen fra hypotesetesten hvis vi bruker signifikansnivå 0.05? Hvordan henger dette sammen tallene 0.013 og 0.027 fra forrige punkt? Q1.3: a) Hvilke modellantagelser gjør vi i en enkel lineær regresjon? b) Hva er en predikert verdi og hva er et residual (formler)? c) Hvordan kan vi bruke predikert verdi og residual til å sjekke modellantagelsene? d) Vi får også oppgitt tallet "R-Squared" til å være 0.238 (ofte også skrevet som 23.8%). $R^2$ har i enkel lineær regresjon en sammenheng med korrelasjonskoeffienten, men det er en annen definisjon som er relatert til sum av kvadrerte residualer. Hvilken formel er det? Forklar alle symboler. Hvordan vil du forklare tallet til en medelev som ikke har hørt om enkel lineær regresjon? Q1.4: a) Studer plottet av predikert verdi mot residual. Hvordan skal et slikt plott se ut hvis modellantagelsene er oppfylt? Hvordan vil du evaluere plottet? b) Studer QQ-plottet av residualene. Hvordan vil du evaluere plottet? c) Vil du konkludere med at modellen passer godt? Q1.5: Oppsummer kort hva du ser i plottene. Fokus skal være om du tror at det er noen sammenheng mellom Blodceller (som respons) og de fire mulige forklaringsvariablene (Hoeyde, Vekt, Kjoenn og Sport). Hvilket Kjoenn har generelt høyest verdi for Blodceller? Q1.6: a) Skriv ned ligningen for den estimerte regresjonsmodellen. Hvor mange regresjonsparametere er estimert? b) Sammenlign den estimerte regresjonskoeffisienten for Hoeyde i denne modellen mot den estimerte regresjonskoeffisienten for Hoeyde i den enkle lineære regresjonen. Har disse to samme fortolkning? c) Hvis vi sammenligner en mann og en kvinne som begge er like høye, veier like mye og begge holder på med samme idrett, hva er gjennomsnittlig forskjell i antall blodceller mellom dem? d) Hva er predikert antall blodceller for en mann som holder på med roing, er 180 høy og veier 75 kg? (Regn for hånd ved å putte inn tall fra resultat.summary().) Q1.7: a) Forklaringsvariablen 'Sport' er kategorisk og vi har brukt en såkalt dummy-variabelkoding, der 'Basketball' er referansekategorien. Er effekten av de andre sportskategoriene på 'Blodceller' signifikant forskjellig fra effekten for 'Basketball' (på nivå 0.05)? b) Hva er andel forklart variasjon? Ville du forventet at andelen forklart variasjon gikk opp da vi la til flere forklaringsvariabler enn Hoeyde? Hvis vi nå la til en forklaringsvariabel som var IQ til idrettsutøveren, ville da $R^2$ økt? c) Basert på utskrifter og plott. Vil du konkludere med at modelltilpasningen er god? Q1.8: a) Hvor mange regresjonsparametere er nå estimert? Hva er signifikante forklaringsvariabler? b) Er modelltilpasningen god? c) Sammenlign Adj. R-squared for modellen med og uten 'Sport'. Hvis vi skal avgjøre om 'Sport' skal være med som forklaringsvariabel ved å bruke Adj. R-squared, hva vil du da konkludere med? Begrunn valget ditt. Oppgave 2: Klassifikasjon Q2.1: a) Hvorfor ønsker vi å dele dataene inn i trening, validering og test-sett? b) Hva brukes hver av disse delene til i våre analyser? c) Hvor stor andel av dataene er nå i hver av de tre settene? Ser de tre datasettene ut til å ha lik fordeling for de tre forklaringsvariablene og responsen? Q2.2: a) Kommenter hva du ser i plottene og utskriften. b) Hvilke av de tre variablene tror du vil være gode til å bruke til å predikere hvem som vant matchen? Begrunn svaret. Q2.3: a) Hvilke forklaringsvariabler er signifikante i modellen på signifikansnivå 0.05? b) Hvordan kan du tolke verdien av exp(upressetdiff)? c) Hva angir feilraten til modellen? Hvilket datasett er feilraten regnet ut fra? Er du fornøyd med verdien til feilraten? Q2.4: a) Diskuter hva du ser. b) Som din beste modell for logistisk regresjon vil du velge modellen med eller uten dobbeldiff som kovariat? Begrunn svaret. Q2.5: Forklar kort hva som er gjort i koden over, og hvilken verdi av k du vil velge. Q2.6: a) Vil du foretrekke å bruke logistisk regresjon eller k-nærmeste-nabo-klassifikasjon på tennisdataene? b) Oppsummer hva du har lært at kan være en god metode for å predikere hvem som vinner en tennismatch. Oppgave 3: Klyngeanalyse Q3.1: a) Hvor mange observasjoner (n) og hvor mange variabler (p) har vi? b) Hvor finner du fargeverdiene til observasjonen med posisjon (x,y)=(10,20) i bildet i den nye tabellen "data_farger"? Q3.2: Se kode under for hvordan lage et redusert datasett, og plotte rød mot grønn. Du legger til plott av rød mot blå og blå mot grønn. Kommenter hva du ser. Q3.3: a) Hva er sentroidene for ditt bilde? b) I hvilken klynge havner fargene svart, hvit, rød, grønn, blå og gul? Tre viktige kodelinjer og så gjøres kryssplottene på nytt, c) Diskuter kort hva du ser. d) Ved å se på det opprinnelige bildet, er det mulig å se hvilke deler av bildet som hører til hvilken klynge? Forklar! Q3.4: Kommenter og forklar hva du observerer. Q3.5: Hva er hovedforskjellene mellom K-gjennomsnitt-klyngeanalyse og hierarkisk klyngeanalyse? Vi ber deg ikke om å finne klynger i bildet ved hjelp av hierarkisk klyngeanalyse. Hva kan være grunnen til at vi ikke gjør det? Q3.6: Hvor mange klynger trenger du for at du synes at bildet ser omtrent ut som det opprinnelige bildet? Prøv ut med ulike antall klynger og finn et klyngeantall du synes gir en god tilnærmelse, både med tanke på farger og detaljer. Hvor mange bit blir brukt per piksel i ditt valg av antall klynger over?