Oppgave 1: Multiple testing

a) Explain with words what is a \(p\)-value.

En \(p\)-verdi er sannsynligheten for at vi har observert minst en så ekstrem verdi av testobservatoren som det vi har, gitt at nullhypotesen er sann.

Assume that we reject all null-hypotheses with corresponding \(p\)-values below 0.05. How many null-hypotheses will we then reject?

I vårt utvalg vil vi forkaste 51 nullhypoteser.

What is a false positive finding? Do we know the number of false positive findings in our data?

Et falsk funn får vi hvis vi forkaster en nullhypotese som er sann. Vi vet ikke hvilke nullhypoteser som er sanne - hadde vi visst det var det jo ikke noen grunn til å utføre hypotesetesten. Antallet falske positive er ikke kjent for oss.

b) Let the number of false positive findings for our data be called \(V\). What is the definition of the familywise error rate FWER?

Vi definerer FWER som sannsynligheten for minst et falsk positivt funn.

What does it mean to “control the FWER at level 0.05”?

Det betyr vi har valgt et cut-off på \(p\)-verdien slik at vi (gitt antagelsene vi gjør om avhengighetsstrukturen og fordelingen til testobservatorene) er sikre på at sannsynligheten for minst ett falskt positivt funn er mindre eller lik 0.05.

The Bonferroni method will control the FWER. What cut-off on \(p\)-values should we use if we want to control the FWER at level 0.1 for our data with the Bonferroni method? Call this cut-off \(\alpha_B\). How many null-hypotheses will we reject with this new cut-off?

Bonferronis metode er gyldig for alle avhengighetstrukturer av data, og cut-off for \(p\)-verdiene er satt til \(\alpha/m\) hvis vi vil kontrollere FWER på nivå \(\alpha\) for \(m\) hypoteser. For våre data så er \(m=1000\) og vi ønsker \(\alpha=0.1\) slik at cut-off blir \(0.1/1000=10^{-4}\). Det er ingen \(p\)-verdier i datasettet vårt om er mindre enn denne verdien, så vi vil ikke forkaste noen nullhypoteser.

To see the effect of choosing different cut-offs on \(p\)-value on the number of false positive findings we need to know which null hypotheses are true and which are false. Let us assume that all the 1000 \(p\)-values come from true null hypotheses. What does this imply about the number of rejection in a) and b?

Når alle hypoteser er sanne vil et cut-off på 0.05 gi 51 falske funn, mens med cut-off på \(10^{-4}\) vil vi ikke få noen falske funn.

What if only the first 500 \(p\)-values come from true null hypotheses?

Når de 500 første hypoteser er sanne vil et cut-off på 0.05 gi 22 falske funn og 51-22=29 sanne funn, mens med cut-off på \(10^{-4}\) vil vi ikke få noen falske funn og heller ikke noen sanne funn.

Kommentar: jeg har generert \(p\)-verdiene uavhengige og fra sanne nullhypoteser, og hvis man ser på histogrammet over \(p\)-verdier så ser det ut som et utvalg fra en uniform fordeling.

c)

The Sidak method for FWER control can be derived by assuming that the \(m\) \(p\)-values are independent. Look at the derivation in 5.2 https://www.math.ntnu.no/emner/TMA4267/2017v/multtest.pdf, and explain to each other what is happening.

Hver ser vi at formelen for cut-off med Sidaks metode er \(\alpha_{\text{loc}} = 1-(1-\alpha)^{1/m}\).

Is the Sidak or the Bonferroni method the most strict method?

Bonferroni er strengere enn Sidak, det ser vi fordi cut-off fra Bonferroni er en lavere verdi enn cut-off fra Sidak. For multippel hypotesetesting så er uavhengige hypoteser en ekstrem situasjon, men det finnes noen varianter av negativ avhengighet som krever enda strengere metoder.

Calculate the \(\alpha_{\text{LOC}}\) for the Sidak method for our 1000 hypothesis.

For å gjøre det må vi definere på hvilket nivå vi skal kontrollere FWER. La oss velge 0.1. Da får vi \(\alpha_{\text{loc}} = 1-(1-\alpha)^{1/m}=1-(1-0.1)^{1/1000}=1.053\cdot 10^{-4}\).

d)

Describe briefly what is meant by the following two terms: \(p\)-hacking and reproducibility crises.

Begrepet \(p\)-hacking går ut på at man ikke følger den vitenskaplige prosess, dvs. man setter ikke opp en hypotese, samler inn data og så tester bare denne hypotesen. Når man utfører \(p\)-hacking så samler man inn data og så sjekker man ulike hypoteser og rapporterer bare resultatet av de hypotesene der vi har en lav \(p\)-verdi - men gjør ingen korreksjon for at man tester mer enn en hypotese. Dette er en av grunnene til at ikke funn er reproduserbare og derfor en grunn til reproduserbarhetskrisen.

What is the relationship between these two terms and multiple testing.

Man ville ikke hatt noe problem med \(p\)-hacking hvis man gjør følgende: På forhånd setter opp alle mulige hypoteser man ønsker å teste, bestemmer om man vil kontrollere FWER (eller annet mål) og hvilken metoden man vil bruke (Bonferroni, Sidak eller annet). Deretter forholder man seg til \(p\)-verdier og cut-off og forklaster bare de \(p\)-verdiene som er lavere enn cut-off.

Oppgave 2: MCQ

Type I errors

What is a commonly used name for the type I errors?

    1. true positives
    1. false positives
    1. false negatives
    1. true negatives

Korrekt svar er B.

\(p\)-value from true null hypothesis

For a continuous test statistic that gives an exact \(p\)-value, what is the distribution the \(p\)-value when the null hypothesis is true?

    1. Normal
    1. Chisquared
    1. Exponential
    1. Uniform

Korrekt svar er D.

FWER

\(V\)=number of false positives and \(R\)=number of rejections. The familywise error rate FWER is

    1. \(\text{E}(V/R)\)
    1. \(\text{E}(V)\)
    1. \(P(V/R>0.05)\)
    1. \(P(V>0)\)

Korrekt svar er D.

Bonferroni

\(\alpha\)=level for control of FWER. \(\alpha_{\text{loc}}\)=cut-off on \(p\)-value, \(m=\)number of tests.

What is the Bonferroni rule?

    1. \(\alpha_{\text{LOC}}=m\alpha\)
    1. \(\alpha_{\text{LOC}}=\frac{\alpha}{m}\)
    1. \(\alpha_{\text{LOC}}=\alpha^m\)
    1. \(\alpha_{\text{LOC}}=(1-\alpha)^{1/m}\)

Korrekt svar er B.