Statistik Brogaarden 20. og 21. januar 2014.

Statistik Brogaarden 20. og 21. januar 2014

Introduktion Mig Kasper K. Berthelsen, statistiker kkb@math.aau.dk
people.math.aau.dk/~kkb Min arbejdsplads Institut for Matematiske Fag, AAU Statistikgruppen 2 professorer, 8 lektorer, 2 adjunkter, 4-6 ph.d. studerende.

Matematiske uddannelser ved AAU
To-fags-uddannelse (”Gymnasielæreruddanelsen”) Fx. matematik og fysik, matematik og dansk… Et-fags-uddannelse (”Anvendt matematik”) 4 år med matematik og 1 år med ”noget andet”, Ofte er det ene år på en ingeniør-retning. Matematik-Økonomi – 5-årig kandidatuddannelse Matematik-Teknologi – 5-årig kandidatuddannelse Seneste optage er studerende Kandidatproduktion 5-10 studerende… må forventes at vokse

Tilbud til gymnasieelever
Studerende for en dag Kontakt sekretær Lisbeth Grubbe Numbers bloggen numb3rs.math.aau.dk Masser af inspiration i mere end 200 blog-indlæg Studiepraktik

Statistik – hvad er det? Statistik er kunsten at drage en generel konklusion på baggrund af ufuldstændig information. Det er uinteressant at finde ud af om der er (statistisk signifikant) forskel på udfaldet af to valg. Jeg kan jo bare tælle stemmerne…. Har jeg kun lavet en rundspørge, så er det straks mere interessant. I statistik består data af to komponenter En systematisk variation (”signal”) En tilfældig variation (”støj”) Statistik handler om at fjerne støj fra data.

Eksempel på (u)statistisk problemstilling
Matematik B, Studentereksamen 2012 Ifølge hjemmesiden givblod.dk er fordelingen af blodtyper i den danske befolkning som følger: Tabellen nedenfor viser, hvorledes de 950 patienter i en bestemt lægeklinik fordeler sig på blodtyperne. Lægeklinikken vil undersøge nulhypotesen: Lægeklinikkens patienter har samme blodtypefordeling, som den danske befolkning.

Statistik: Religionskrig
Der findes to hovedretninger indenfor statistik Frekventiel statistik Her er sandsynligheder baseret på frekvenser Den klassiske metode Bayesiansk statistik Baserer sig på subjektive sandsynligheder Moderne? Mere naturlig? Der har tidligere været en vældig krig mellem de to retninger…

Mange forskellige statistiske discipliner
Survey/sprøgeskema Overlevelsesanalyse Longitudinelle analyser (gentagede målinger over tid) Tidsrækkeanalyse (fx aktiekurser) Rumlig statistik osv. osv. Anvendelsesområder: Biostatistik / biometri Økonometri Psykometri osv osv

Hvad så med mig…? Jeg beskæftiger mig med rumlig statistik.
Mest punktprocesser: ”Støj” = placering Mindre geostatistik: ”Støj” = målte værdier

Hvad så med mig…? Simulationsbaseret inferens
Særligt Markov kæde Monte Carlo Formål: Skabe en sekvens af afhængige stokastiske variable, der har de rette egenskaber i det lange løb…

En population og en stikprøve
Konkret: Stemmeberettigede i Danmark Abstrakt: Alle målinger af lysets hastighed Stikprøve Vi udvælger (tilfældigt) elementer fra populationen. Kan gøres på mange måder. Ide: Vi vil gerne udtale os om hele populationen med udgangspunkt i stikprøven. Princip: Vi skal gøre dette med tanke på, at stikprøven er tilfældig. Vi kunne have været uheldige…

Stikprøveudtagning Tilfældig
Alle elementer i populationen har lige stor sandsynlighed for at blive udvalgt. Eksempel: CPR-registret. Stratificeret Populationen inddeles i undergrupper (strata). Man udtager en tilfældig stikprøve fra hver gruppe. Nyttig metode, hvis man vil sikre at alle delgrupper er repræsenteret i stikprøven. Eksempel: Sammenligning af hjemløse og resten.

Stikprøveudtagning Cluster sampling.
Man vælger et antal ”steder” i befolkningen og sampler i nærheden. Eksempel: Tilfældige veje i en kommune udvælges, hvorefter alle på de vej bliver spurgt. Problem: Systematiske fejl I den virkelige verden opstår mange statistiske fejl allerede i indsamlingsfasen… Ofte introduceres systematisk fejl – såkaldt bias.

The Literary Digest Poll (1936)
Ikke-biased stikprøve Ikke-biased, repræsentativ stikprøve fra hele populationen. Demokrater Republikanere Population Biased stikprøve Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest. Folk, der har telefon og/eller bil og/eller læser Digest. Demokrater Republikanere Population Literary Digest resultat: Alfred Landon slår Frenklin Roosevelt stort. Faktiske resultat: Landskredssejr til Roosevelt.

Andre slags bias Formulering af spørgsmål har betydning for svar:
In favour of new gasoline tax: 12% yes In favour of new gasoline tax to reduce US dependence on foreign oil: 55% yes In favour of new gasoline tax to reduce global warming: 59% yes

Andre slags bias Rækkefølgen af spørgsmål. Under den kolde krig blev følgende to spørgsmål stillet: Do you think the U.S. should let Russian newspaper reporters come here and report back whatever they want? Do you think Russia should let American newspaper reporters come in and report back whatever they want? 36% svarer ja til A. hvis det er første spørgsmål. 73% svarer ja til A. hvis det er andet spørgsmål.

Andre slags bias I en amerikansk undersøgelse afhang svarene i et telefoninterview af, den interviewedes forestilling om interviewerens etniske tilhørsforhold. Is the US society fair to everyone? 14% / 31% I medicinske forsøg: Alle der oplever bivirkninger dropper ud. Konklusion: Ingen bivirkninger… Medicinsk vs Kirurgisk behandling. Svage patienter udsættes ikke for den kirurgiske behandling.

Sandsynlighed: Opvarmning
Udfald Resultatet af et ”eksperiment” kaldes et udfald. Eksempler: Eksperiment: Vælg en partileder / mål lysets hastighed Udfald: Lars / km/s (stikprøver fra hvilke populationer…?) Hændelse En hændelse er en mængde af udfald. Vælge en kvinde / Hastighedsmåling er ml km/s og km/s

Sandsynlighed Sandsynlighed
Sandsynligheden for en hændelse A er andelen af gange eksperimentet resulterer i hændelsen A i det lange løb. Notation P(A) betegner sandsynligheden for hændelsen A. Det behøver ikke være sådan: Hva’ nu hvis… P(Bayern München vinder CPL) P(Det regner i morgen) Eksempler på subjektive sandsynligheder

Sandsynlighed: Egenskaber og regneregler
0 ≤ P(A) ≤ 1 P(A) = hændelsen A indtræffer aldrig. P(A) = hændelsen A indtræffer hver gang. P( ikke A) = 1 – P(A) Hvis A ikke indtræffer, så må ”ikke A” nødvendigvis indtræffe Hvis hændelserne A og B ikke kan indtræffe samtidigt gælder: P( A U B ) = P(A) + P(B)

Betinget sandsynlighed
Hvis A og B er mulige udfald, så gælder Hvilket kan omskrives til multiplikationsreglen: P(A ∩ B) = P(A)P(B | A)

Uafhængighed Uafhængighed
To hændelser A og B er uafhængige hvis og kun hvis hvilket kan omskrives til P( B | A ) = P(B)

Stokastisk variabel X Stokastisk variabel
Antag vi kan knytte en talværdi til hvert udfald af et eksperiment. Hvert eksperiment fører således til et tilfældigt tal. Dette tilfældige tal kaldes en stokastisk variabel. X 1 5

Diskret stokastisk variabel (SV)
En stokastisk variabel X er diskret, hvis den kun kan tage et tælleligt antal værdier. Typisk 0, 1, 2, 3,… Lad P(k) betegne sandsynligheden for at den stokastiske variabel X tager værdien k. Dvs. P(1) = ”sandsynligheden for y tager værdien 1”. P(x) skal opfylde: 0 ≤ P(x) ≤ 1 for alle x. Salle xP(x) = 1

Kontinuert stokastisk variabel
Hvis y er en kontinuert stokastisk variabel kan den tage alle værdier i et interval. Vi angiver sandsynligheden for at X falder i et interval [a ; b] ved et areal under en kurve. Tæthedsfunktion f(x) P(1 ≤ X ≤ 2) = Areal

Tæthedsfunktionen (Sandsynligheds)Tæthedsfunktion f(x)

Middelværdi og varians for SV

Normalfordelingen Normalfordelingen
Klokkeformet og (fuldstændigt) karakteriseret ved middelværdi m og standardafvigelse s. Notation: x ~ N(m,s2) betyder at y er en kontinuert stokastisk variabel, der er normalfordelt med middelværdi m og varians s2. Tæthedsfunktionen for normalfordelingen er Egenskaber: Symmetrisk omkring m f(x) > 0 for alle x. 95% m m-1.96s m+1.96s

Standardafvigelsen σ når X~N(μ,σ2)
Cirka 68% af all observationer ligger indenfor en standard afvigelse fra middelværdien Cirka 95% af alle observationer ligger indenfor 1.96 standard afvigelser fra middelværdien Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien

Chebychevs ulighed (Tjebysjov?) Lad X være en stokastisk variabel med middelværdi m og varians s2>0. Da gælder følgende ulighed Eksempel: k = 2 Dvs. sandsynligheden for at afvige mere end to standardafvigelser fra middelværdien er altid mindre en 25%.

Interessante størrelser
I statistik optræder masser af stokastiske variable. Ofte er vi interesserede i at udregne en eller flere af følgende tre størrelser Middelværdi m = E[X] Variansen s2 = Var(X) = E[(X-m)2] Sandsynlighed p = P(X ∈ A) Dette kan være svært - eller umuligt. En løsning er (computer) simulationer.

Simpel Monte Carlo X stokastisk variabel ~ P Middelværdi: E[X] = m
Antag X1, X2,…, Xn ~ P og uafhængige. Udregn stikprøvegennemsnit Da er et Monte Carlo estimat af m. Kan udvides til afhængige X1, X2,…, Xn Hvis X1, X2,… er en Markov kæde, så kaldes det MCMC. MCMC = Markov chain Monte Carlo.

Middelværdier er (næsten) alt!
Antag vi er interesseret i en sandsynlighed p. Vi har Bernoulli variabel X som vi kan simulere P(X = 1) = p og P(X = 0) = 1 - p Middelværdien: Simuler uafh.: X1, X2,…, Xn ~ Ber(p) Monte Carlo estimat af p:

Den Centrale Grænseværdi Sætning (CLT)
(Central limit theorem) Sætning: Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af Tommelfingerregel: n = 30 er nok til en god tilnærmelse. Praktisk omskrivning: Dvs. Monte Carlo estimatet er tilnærmet normalfordelt.

Simulation i R Man kan simulere en normalfordeling
x = rnorm(n=1000, mean=198, sd=10) mean(x) ## stikprøvegennemsnit [1] sd(x) ## stikprøvestandardafvigelse [1] hist(x) ## histogram

Lidt flere plot i R hist(x,freq=FALSE)
curve(dnorm(x,mean=198,sd=10), ,250,add=TRUE) Den kumulerede fordelingsfunktion (F(x) = P(X≤x)) curve(pnorm(x,mean=198,sd=10), ,250)

Monte Carlo eksempel i R
Antag X ~N(198,100) Find P(X<190) Simuler stikprøve fra normalfordeling: x = rnorm(n=1000,mean=198,sd=10) mean(x<190) ## falsk = 0 / sand = 1 [1] 0.207 Korrekte svar findes vha. pnorm(q=190,mean=198,sd=10) ## kumulerede ford. [1]

For at illustrere CLT kan vi nemt gentage Monte Carlo simulationen 2500 gange:
> xbar = replicate(2500,mean(rnorm(n=1000,mean=198,sd=10)<190)) > hist(xbar,breaks=25,freq=FALSE)

c2-fordelingen Antag Z1,Z2,…,Zk er k uafhængige standard normalfordelte stokastiske variable, dvs. Zi ~ N(0,1). Definer Da følger W en c2-fordeling med k frihedsgrader. Tæthedsfunktionen for c2-fordeling med k frihedsgrader er

c2-fordelingen c2-fordeling… antager kun positive værdier er højreskæv
df = 5 df = 10 c2-fordeling… antager kun positive værdier er højreskæv df = 10 facon er givet ved antal frihedsgrader (df = degrees of freedom) har middelværdi m = df og varians s 2 = 2df.

R R er et open source statstikprogram og programmerings-sprog introduceret i 1993. Seneste version er 3.0.2 R kan downloades på R er i udgangspunktet uden peg-og-klik Mere end 2000 pakker (udvidelser a la et plugin) I det følgende tager vi udgangspunkt i Windows versionen. Der eksisterer versioner til Mac og Linux. For at få en smartere brugerflade anvender vi RStudio

RStudio Sådan ser RStudio typisk ud første gang man starter det.
Nederste vestre vindue er hvor man snakker direkte med R vha. tekst-kommandoer.

RStudio – lidt opsætning
Det er nyttigt at ændre R’s standard-mappe. Vælg Tools → Options Under ‘Default working directory..’ vælg den mappe hvor I vil gemme filer relateret til R (fx. data)

R hjælp Man kan få hjælp vha. ?<kommando> > ?sum
Man kan få RStudio til at gætte vha. Tab-knappen Man kan også søge efter hjælp vha. > help.search("plot")

Statistisk test: Motivation (based on a true story…)
Setup: Vi vil undersøge om der er sammenhæng mellem køn og om man gennemfører sit studie på normeret tid! Vi har spurgt 2000 (fiktive) AAU kandidater. Opsummering af data i en kontingenstabel Er der en sammenhæng ml. køn og rettidighed?

Hypotesetest Vi vil afgøre spørgsmålet vha. et såkaldt hypotesetest.
Denne testteori er udvikle af Neyman og Pearson i 30erne. Grundlæggende ide: Vi inddeler verden i to Nul-hypotesen (H0) (Der er ingen sammenhæng) Alternativ-hypotesen (H1) (Der er en sammenhæng) Princip: Nul-hypotesen er sand indtil det modsatte er ”bevist”. Alle udregninger foretages under antagelse af H0. Tvivlen skal altid komme nul-hypotesen til gode.

Forventede antal under H0
Nu tager vi udgangspunkt i at H0 er sand – dvs. ingen sammenhæng! Hvilke antal havde vi forventet, hvis H0 var sand? Uden sammenhæng burde andelen af ”På normeret tid” være den samme blandt mænd og kvinder, dvs %. Da der er både 1000 mænd og kvinder ville vi forvente ”rettidige” kandidater.

Observerede vs. Forventede antal
En sammenligning af forventede og observerede antal: Er de observerede antal for langt fra de forventede til at vi kan tro på H0? Observeret antal Forventet antal

Observerede vs. Forventede antal
Observeret antal Forventet antal Vi måler ”afstanden” mellem observerede og forventede vha. O3 E3

Resultat og Konklusion
Så ”afstanden” en 48,33… er det for stor? Tommelfinger-regel (for 2x2 tabel): Afstanden er for stor hvis c2 > 3.84. Konklusion: Afstanden er for stor! Vi tror ikke på ”H0: Ingen sammenhæng”. Med andre ord: Der er en sammenhæng! Mere præcist: Der er en statistisk signifikant sammenhæng.

Forventede antal: Uafhængighed
De forventede antal kan også udregnes med udgangspunkt i definitionen på uafhængige hændelser: Lad P(i,j) være sandsynligheden for at en tilfældig observation havner i celle (i,j). Lad N være det totale antal observationer. Det forventede antal i celle (i,j) er N· P(i,j).

Forventede antal: Uafhængighed
Hvis der er uafhængighed så P(i,j) = P(i)P(j), dvs. det forventede antal er N· P(i)P(j). Antag Ni og Nj er antal observation i hhv. række i og kolonne j. Vi kan nu estimere de marginale sandsynligheder. Dvs. P(i) = Ni / N og P(j) = Nj / N Det forventede antal i celle (i,j) er da N· P(i)P(j) = N·P(i)(Ni / N)(Nj / N) = Ni Nj / N

Tabeller i R matrix(c(283,717,432,568),2,2,byrow=TRUE) [,1] [,2] [1,] [2,] as.table(matrix(c(283,717,432,568),2,2,byrow=TRUE)) A B A B tabel = as.table(matrix(c(283,717,432,568),2,2,byrow=TRUE)) addmargins(tabel) A B Sum A B Sum

c2-test i R > chisq.test(tabel) Pearson's Chi-squared test with Yates' continuity correction data: tabel X-squared = , df = 1, p-value = 5.016e-12 > chisq.test(tabel)$statistic X-squared > chisq.test(tabel)$p.value [1] e-12

Hvor kommer de 3,84 fra? For at forstå, hvor den kritiske værdi 3,84 kommer fra, så skal vi første forstå, hvor 2x2 tabellen kommer fra. Der er n observationer, hvor Oij samtidigt tilhører population Aj og Bi. …men hvordan er data indsamlet? A1 A2 B1 O11 O12 R1 B2 O21 O22 R2 C1 C2 n

Hvor kommer de 3,84 fra? Vores 2x2 tabel kan opstå på en af tre måder:
Vi har indsamlet n tilfældige observationer og kategoriseret dem mht. variablene A og B. Vi har indsamlet R1 observationer fra population B1 og tilsvarende indsamlet R2 observationer fra population B2. Indsamlet n observationer betinget af, at de marginale antal er givet ved R1, R2, C1 af C2. Asymptotisk, dvs. i grænsen når n vokser, så følger X2 i alle tre tilfælde en c2-fordelingen med 1 frihedsgrad.

Hvor kommer de 3,84 fra? For lille n er fordelingerne under de tre setup forskellige. Vektoren (O11, O12, O21, O22) er multinomialfordelt, med sandsynligheder (p11, p12, p21, p22). Under H0 gælder p11/p12 = p21/p22. O11 og O21 er uafhængige og binomialfordelte med antal parametre R1 og R2. Under H0 har de samme sandsynlighedsparameter. Under H0 følger O11 en såkaldt hypergeometrisk fordeling. Husk: Asymptotisk, dvs. i grænsen når n vokser, så følger X2 i alle tre tilfælde en c2-fordelingen med 1 frihedsgrad.

Hypergeometriske fordeling
En hypergeometrisk fordeling beskriver følgende situation: Sandsynligheden for k succeser i n trækninger uden tilbagelægning fra en endelig population af størrelse N med K succeser. Hvis X følger en hypergeometrisk fordeling (parametriseret som ovenfor), hvis

Hvor kommer de 3,84 fra? Antag at H0 er sand – dvs. ingen sammenhæng! Vigtigt! Forestil jer, at vi nu udfører nye undersøgelser af sammenhængen mellem køn og studietid. Trick: ”Omrøring” Svarer til situation 3! Ja ♀ Ja Nej ♂ Ja

Hvor kommer de 3,84 fra? Antag at H0 er sand – dvs. ingen sammenhæng! Vigtigt! Forestil jer, at vi nu udfører nye undersøgelser af sammenhængen mellem køn og studietid. Vi får nye tabeller! Vi får nye c2-værdier! De 3,84 er valgt, så for 5% af tabeller overskrider c2-værdien 3,84. Konsekvens? Her forkaster vi H0.

c2-fordelingen Histogrammet passer med en c2-fordeling (med én frihedsgrad): Areal = 5% Forkast H0. Forkast H0.

Omrøring i R ## Genskab data ud fra tabel
data = TableData(2,2,c(283,717,432,568)) ## Nulstil variabel X2 X2 = 0 ## Omrøring og efterfølgende test 1000 gange for(i in 1:1000){ data$A = sample(data$A) data$B = sample(data$B) tabel = table(data) X2[i] = chisq.test(tabel)$statistic }

Grafisk opsummering hist(X2,freq=FALSE,breaks=50)
curve(dchisq(x,df=1),0,25,add=TRUE) > quantile(x=X2,probs=0.95) %

Lidt asymptotik Et c2-test for uafhængighed i en r x c tabel er asymptotisk c2-fordelt med (r-1)(c-1) frihedsgrader. Asymptotikken består i at det totale antal observationer vokser. Tommelfingerregel: Hvis Ei≥5 for alle celler, så har asymptotikken ”slået til”. Dvs. hvis Ei≥5 for alle celler, så anvender vi en c2-fordeling til at finde de kritiske værdier.

Type I fejl Hvis vi afviser H0, selvom den er sand, så har vi begået en Type I fejl. Sandsynligheden for at begå en Type I fejl betegnes signifikansnivauet og betegnes a. Når vi bruger 3,84 er så er sandsynligheden for at begå en Type I fejl (i princippet) 5%. 3,84 kaldes en kritisk værdi. Vi kan nemt undgå at begå en Type I fejl…! Hvordan?

Antag at H0 ikke passer! Antag at den sande fordeling af svar passer med følgende tabel: Vi skaber tabeller og c2-værdier Nu begår vi en anden slags fejl…! (0,2242) Mænd 40% 60% Kvinder Mænd 33 68 Kvinder 55 44 Forkast H0.

Type II fejl Hvis vi ikke afviser H0, selvom den er falsk, så har vi begået en Type II fejl. I eksemplet er sandsynligheden for Type II fejl = 22.42%. Hvordan undgår man Type II fejl? Sandsynligheden for at afvise en falsk H0 kaldes styrken. - afhænger naturligvis af hvad ”sandheden” er. At få det korrekte signifikansniveau er ”nemt” – kunsten er at finde et test med en høj styrke.

Simulere H1 i R ## Nul-stil variabel X2.H1 = 0 for(i in 1:10000){ ## Simuler tilfældig tabel med givne ssh’er data = rTableData(2,2,c(0.4,0.6,0.6,0.4),200) ## Udfør chi-i-anden test og gem X^2-værdi X2.H1[i] = chisq.test(table(data))$statistic } ## Tegn histogram hist(X2.H1,freq=FALSE, breaks=50)

P-værdi En mere nuanceret metoder benytter P-værdien.
P-værdien er sandsynligheden for at observere en mindst lige så ekstrem teststørrelse ”næste gang”, hvis nul-hypotesen er sand. Hvad der menes med ”mere ekstrem” afgøres af alternativ-hypotesen: Jo mere teststørrelsen peger i retning af alternativ-hypotesen jo mere ekstrem er den. I studenter-eksemplet: Jo større c2, jo mindre tror vi på H0. Vi afviser H0, hvis p-værdien < 5%.

c2-test vha. P-værdi P-værdien er sandsynligheden for mere kritiske værdier, hvis H0 er sand P-værdien findes. vha. computer/lommeregner c2 , df = (r – 1)(c – 1) Grønne areal = P-værdien c2 Teststørrelsen, fx c2 = 48,33

Eksempel: Køn og rettidighed
Teststørrelsen er c2 = 48,33 P-værdien er P = 0,0003. Konklusion: Da P-værdien er mindre end 0.05 afviser vi H0 Dvs. vi accepterer at der er en sammenhæng mellem køn og hvor rettidigt man afslutter sit studie. P-værdien 48,33

Fortolkning af P-værdi
Nyttig og uformel fortolkning P-værdien er et udtryk for, hvor godt data passer med H0-hypotesen. Jo mindre P-værdien er… jo mindre sandsynligt er det at observere end mindst lige så ekstrem værdi næste gang (hvis H0 er sand). jo mere ekstrem er teststørrelsen (hvis H0 er sand) jo mindre troværdig er H0. Beslutningsregel (hvis man ikke vil tænke selv): Vi afviser H0, hvis P-værdien er mindre end fx 5%. Andre bruger 1% eller 10% - kommer an på omstændighederne.

Dokumenterede misforståelser…
Citater fra gymnasiebog i samfundsfag i forbindelse med c2-test: Tekst der handler om P-værdien: ”Ved at gennemføre testen fås et resultat på 0,000144,…” ”Hvad betyder værdien på 0,000144? Værdien er sandsynligheden for at der ikke er sammenhæng. Der er således en sandsynlighed på 0,99856 for at sammenhængen mellem køn og partivalg er signifikant.” *Det skal understreges at andre allerede har gjort forlaget/forfatterne opmærksom på ovenstående fejl, og at der i den forbindelse er publiceret en rettelse på forlagets hjemmeside.

Pointer P-værdien er ikke sandsynligheden for at H0 er sand.
Det er for simpelt at sammenligne P-værdien med fx 5%. Husk at tænke over, om vores antagelser opfyldt (fx Ei≥5). Spørgsmål 1: Hvis H0 er sand, hvilken fordeling følger P-værdien? Spørgsmål 2: Hvordan finder man en P-værdi uden en ”tabel”.

Fordelingen af P-værdien
Hvis H0 er sand, så er P-værdien ligefordelt mellem 0 og 1. Simulation under H0 af x2 tabel med hver svar. Histogram for de tilhørende P-værdier: Tilsvarende histogram, hvis hver tabel består af kun 200 svar

Monte Carlo P-værdi Ingrediens: Simulation af data under H0. Opskrift
Mænd 33 68 Kvinder 55 44 Ingrediens: Simulation af data under H0. Opskrift Simuler data under H0. For hvert simuleret data-sæt finder vi c2. Monte Carlo P-værdi Andelen af simulerede c2-værdier > obs c2-værdi. Tabel P-værdi: (= )

Monte Carlo p-værdi i R data = TableData(2,2,c(33,68,55,44)) tabel = table(data) X2.data = chisq.test(tabel)$statistic ## Teststørrelse for data X2 = 0 for(i in 1:10000){ ## gange omrøring data$A = sample(data$A) data$B = sample(data$B) tabel = table(data) X2[i] = chisq.test(tabel)$statistic }

Ny Teststørrelse Med Monte Carlo kan vi konstruere nye teststørrelser.
Fx Testsørrelsen er Maxi ( Ei – Oi ) H0 sand H0 falsk Kritisk værdi Sandsynlighed for Type II fejl

Pointer Med en Monte Carlo tilgang kan vi ”nemt” finde en P-værdi.
Nemt at konstruere en ny teststørrelse og et nyt test med det korrekte signifikansniveau. Motivationer for at undersøge andre teststørrelser: Øge styrken? Resultat af en bedre model.

Mål for sammenhæng (a la korrelation)
Race For Imod Total Hvid 360 240 600 Sort 160 400 1000 Race For Imod Total Hvid 600 Sort 400 1000 P-værdi = 1 P-værdi = 0 Forskel i andel hvide Forskellen i andele er et udtryk for styrken af sammenhængen mellem række og søjle variabel. Ingen sammenhæng Stærk sammenhæng

Mål for sammenhæng Eksempler på 2x2 tabeller og tilhørende mål for sammenhæng. Bemærk: Målet er ikke symmetrisk: 25 30 20 35 15 40 10 45 5 50 0.0 0.2 0.4 0.6 0.8 1.0 80 20 40 10 80 40 20 10 0.3 0.0

Mars vs Snickers! Hvad kan du bedst li’? Mars eller Snickers?
Vi har spurgt 100 mænd og 100m kvinder. En udregning viser, at X2 = 0,08 svarende til p-værdi = Mål for sammenhæng: = -0.02 Spørgsmål: Er der en statistisk signifikant sammenhæng / forskel? Har den observerede forskel en praktisk betydning?

Mars vs Snickers! Flere folk!
Vi spørger nogle flere! 200 mænd og 200 kvinder: Statistisk signifikant forskel? Praktisk forskel? mænd og kvinder: Vi udregning viser at X2 = 0,16. Sammenh.: -0.02 Vi udregning viser at X2 = 8,00. Konklusion?

Pointer P-værdien er ikke et udtryk for styrken af en sammenhæng.
Der er en forskel på praktisk signifikans og statistisk signifikans. P-værdien er et udtryk for, hvor meget vi tror på H0 givet data.

Tilbage til Kandidat-undersøgelsen
Kan det virkelig passe at kvinder er dårligere til at gennemføre på normeret tid??? Vi har faktisk spurgt om en ekstra ting: Hvilket fakultet har du studeret ved? TekNat (En af de teknisk naturvidenskabelige uddannelser) Samf (En af de samfundsvidenskabelige uddannelser) Vi laver nu en tabel for hvert af de to fakulteter!

Et Universitet - To Tabeller
c2 = 0,024 c2 = 0,361 Konklusion?

Forklaret sammenhæng Konklusion:
Om man gennemfører sit studie til tiden… Afhænger af fakultet! Afhænger ikke af køn! Hvorfor konkluderede vi først at køn har en betydning? TekNat-studier er nemme at gennemføre til tiden Samf-studier er svære at gennemføre til tiden. Piger foretrækker de svære studier. Drengene foretrækker de nemme studier. Og husk: Jeg har fundet på det hele…

Betinget uafhængighed
To hændelser A og B er betinget uafhængige givet hændelsen C, hvis og kun hvis Grafisk fremstilling (for variable) C Fak A B Køn Tid

Pointer Vi kan finde sammenhænge ml. to variable…
…men i virkeligheden er der ingen sammenhæng, da de er betinget uafhængige! Ovenstående problem kan ikke løses af en statistiker  Der er ingen indlysende måde, at ”opdage”, at man mangler en vigtig variabel. Løsningen kræver input fra en person med indsigt i den praktiske problemstilling.

Tabeller med få observationer
Indtil nu har vi antaget at c2-fordelingen beskriver X2-teststørrelsens fordeling godt. For 2x2 tabeller, hvor de observerede antal er små er c2-fordelingen en dårlig tilnærmelse. I disse tilfælde er det almindeligt, at anvende Fishers eksakte test. Dette test baserer sig på sitution 3 fra tidligere hvor O11 følger en hypergeometrisk fordeling. P-værdien er summen af sandsynligheder for tabeller, der selv har en sandsynlighed, der er lig eller mindre den for den observerede tabel.

Fishers eksakte test Data: Fordelingen af x2-teststørrelsen under H0.
12 6 5 10 Data: Fordelingen af x2-teststørrelsen under H0. Sort streg: Sædvanlige kritiske værdi. Rød streg: X2-teststørrelsen for data. Bemærk: Forventede værdier er alle mindst 5. Med sædvanligt test ville det effektive signifikansniveau være 1,56%!

Fishers eksakte test i R
> fisher.test(tabel) Fisher's Exact Test for Count Data data: tabel p-value = alternative hypothesis: true odds ratio is not equal to > chisq.test(tabel, correct=FALSE) Pearson's Chi-squared test data: tabel X-squared = , df = 1, p-value =

En lidt større tabel Spørgsmål: Er der sammenhæng mellem køn og den måde man stemmer på? To variable: Køn: Mand / kvinde Partiforhold: Demokrat/ Uafhængig / Republikaner Vi er interesserede i fordelingen af stemmer, ikke de absolutte antal.

Relative fordeling Tabel over stemme fordelingen
Stemme- fordelingen blandt: Kvinder: Mænd: Alle: Vi ser at stemmefordelingen er forskellig Er forskellen statistisk signifikant?

c2-test vha. P-værdi P-værdien er sandsynligheden for mere kritiske værdier, hvis H0 er sand P-værdien findes. fx vha. software c2 , df = (r – 1)(c – 1) P-værdien c2 Teststørrelsen, fx c2 = 16.2

Frihedsgrader Hvorfor har en 2x3 tabel 2 frihedsgrader?
Antag vi kender alle række- og søjletotaler. Hvis vi kender antallet i bare to celler, så kan vi finde resten af antallene. Vi har frihed til at vælge to antal – derefter er resten givet! Partiforhold Demokrat Uafhængig Republikaner Total Kvinde 573 516 - 1511 Mand 1260 959 991 821 2711

Residual: Motivation c2-testet kan afsløre, at data passer dårligt med nul-hypotesen om statistisk uafhængighed. c2-testet siger intet om hvordan data passer dårligt. Det kunne fx være fordi: Et lille antal celler afviger meget. Et stort antal celler afviger lidt. Et residual siger noget om, hvor meget den enkelte celle afviger fra det forventede.

Residual Et (råt) residual for en celle er forskellen mellem Oi og Ei.
Et standardiseret residual for en celle er Her er se standardfejlen, hvis H0 er sand. Dvs. det standardiserede residual måler antal se som forskellen mellem Oi og Ei afviger fra 0. z ligger omkring 0 med en standardafvigelse på 1. For store stikprøver er z ca. normalfordelt.

Residual: Eksempel For cellen ’Kvinde’ og ’Demokrat’ har vi
Søjleandel: 1511/2771 = 0.545 Rækkeandel: 959/2771 = 0.346

Residual: Eksempel fortsat
Da z er cirka normalfordelt med middelværdi 0 og standardafvigelse 1, så er 4.0 ret ekstremt. I SPSS vælges ’Adjusted Standardized’ under ’Residuals’ Det ses at det specielt er blandt demokrater, at afvigelsen mellem forventede og observerede værdier er stor.

Stadardiserede residualer i R
> tabel = as.table(matrix(c(573,516,422,386,475,399),2,3, byrow=TRUE)) > tabel A B C A B > chisq.test(tabel)$stdres A B C A B

Endnu en anvendelse af c2-testet
Indkomstfordelingen for personer over 15 år i 2007 ifølge Danmark Statistik. I en markedsanalyse har vi spurgt 1000 personer i det lokale supermarked om deres mening om 3D-fjernsyn. Vi er nu kommet i tvivl om gruppen af adspurgte er repræsentativ. NB: Tåbelig måde at indsamle data på… I = indkomst i 1000kr I<50 50≤I <100 100≤I <150 150≤I <200 200≤I <300 300≤I <400 400≤I <500 500≤I % af befolkningen 6.4 9.3 17.8 12.3 24.3 18.0 6.6 5.3

Repræsentativ stikprøve?
Observerede antal (fra data) Forventede antal (baseret på Danmarks Statistik) Igen måler vi afstanden vha. I = indkomst i 1000kr I<50 50≤I <100 100≤I <150 150≤I <200 200≤I <300 300≤I <400 400≤I <500 500≤I Antal i stikprøven 98 88 199 136 210 179 52 38 I = indkomst i 1000kr I<50 50≤I <100 100≤I <150 150≤I <200 200≤I <300 300≤I <400 400≤I <500 500≤I Antal i stikprøven 64 93 178 123 243 180 66 53 Den kritiske værdi er 14,07

Test i R obs = c(98,88,199,136,210,179,52,38) p = c(0.064,0.093,0.178,0.123,0.243,0.180,0.066,0.053) chisq.test(x=obs,p=p) Chi-squared test for given probabilities data: obs X-squared = , df = 7, p-value = 1.81e-05 Da p-værdi < 0.05 afviser vi H0. Kritisk værdi: > qchisq(0.95,df=7) [1]

Goodness-of-Fit Resultat
Da 33,87 > 14,07 så er afvigelsen for stor! Vi konkluderer derfor, at stikprøven ikke er repræsentativ. Samme undersøgelse, men i en ny butik: Er dette en repræsentativ stikprøve? I = indkomst i 1000kr I<50 50≤I <100 100≤I <150 150≤I <200 200≤I <300 300≤I <400 400≤I <500 500≤I Antal i stikprøven 60 99 190 116 248 173 69 45

Testen Teststørrelsen er c2-fordelt med 7 frihedsgrader (antal grupper minus en). Hvis vi vælger et signifikansniveau på 5%, så er den kritiske værdi Da vi har c2 = > 14.07, så afviser vi påstanden om at stikprøven er repræsentativ. Hvis vi ikke havde afvist påstanden, så er det ikke det samme som, at stikprøven er repræsentativ… Under alle omstændigheder har vi kun forholdt os til om indkomstfordelingen matcher befolkningens.

Pointe Vi kan ikke bevise, at en stikprøve er repræsentativ.
Vi kan ”bevise”, at stikprøven ikke er repræsentativ.

Hvorfor er c2-testen c2-fordelt?
Goodness-of-fit for k=2 kategorier. Antag vi har n total antal observationer n1 antal observationer i kategori 1. p forventede andel observationer i kategori 1. I dette tilfælde er Goodness-of-fit teststørrelsen:

Hvorfor er c2-testen c2-fordelt?
Bemærk, at n1 ~ B(n,p), dvs. E[n1] = np og Var[n1] = np(1-p) CLT giver Dvs.

Hva’ så hvis Ei < 5? Antag p1 = 0.01, p2 = 0.99 og n = 100
Histogram for X2. Sande pi’er anvendt.

Asymptotik Chi-i-anden testen følger asymptotisk en c2-fordeling.
Dvs. jo større n er, mere nærmer fordelingen sig en c2-fordeling. Eksempel: Goodness-of-fit test med k=2 kategorier og p1 = p2 = ½. For n=16 ser fordelingen af X2 Kritisk værdi 3.84 P(x2≥3.84) = 0.076 Dvs. signifikansniveauet er 7.6% og ikke 5%. Bemærk: Ei = 8.

c2-test - generelt setup
n observationer inddelt i k kategorier pi er sandsynligheden for i’te kategori pi er kendt Oi er det observerede antal i i’te kategori Ei = npi er det forventede antal observationer i i’te kategori. c2- teststørrelsen er X2 er asymptotisk c2- teststørrelsen med k-1 frihedsgrader. Ei ≥ 5 for alle i er nok til at ”sikre asymptotikken”.

Goodness-of-fit for parametrisk fordeling
Antag X1,…,Xn er uafhængige observationer fra en fordeling, der er specificeret ved s parametre q1,q2,…,qs. Antag Xi’erne kan inddeles i k kategorier. Lad pj(q) betegne sandsynligheden for at Xi havner i j’te kategori. Hvis q er kendt er Ej = n pj(q) og X2 følger en c2-fordeling med k-1 frihedsgrader.

Goodness-of-fit - ukendt q
Setup kan betragtes som et multinomial-eksperiment, med sandsynligheder p1(q),…, pk(q) Antag er maksimum likelihood estimater, opnået under multinomial-fordelingen. Antag Ei = npi( ) I dette tilfælde er X2 asymptotisk c2-fordelt med k-s-1 frihedsgrader. Estimeres q ud fra den oprindelige likelihood gælder c2k-s-1 ≤sd X2 ≤sd c2k-1 ,hvor ≤sd betyder ”stokastisk domineret” (A. Dasgupta, Asymptotic Theory of Statistics and Probability, 2008)

Eksempel: Hardy-Weinberg ligevægt
Observationerne kan inddeles i k=3 kategorier. Med n observationer er de forventede antal E(AA) = n p2 E(Aa) = n 2p(1-p) E(aa) = n (1-p)2 p er ukendt. Et estimat af p udfra multinomial fordelingen er Antal frihedsgrader er således k-s-1 = = 1 (og ikke 2)

Hardy-Weinberg Antag p = 0.95 og n = 1500
Begge histogrammer: Fordelingen af X2 (10,000 gentagelser) Øverst: Ei udregnet vha. sande p. Nederst: Ei udregnet vha. estimeret p. Effektivt sig.niv. med df=2 er 1,4% (ikke 5%)

Test af uafhængighed: Frihedsgrader
Ved test af uafhængighed er der k = rc kategorier. Beregningen af de forventede værdier involvere estimation af (c-1) + (r-1) marginale sandsynligheder. Antal frihedsgrader er derfor k – s – 1 = rc – (r – 1) – (c – 1) – 1 = (r-1)(c-1).

Repetition: Normalfordelingen
Karakteriseret ved middelværdi m og standardafvigelse s. Notation: y ~ N(m,s2) betyder at y er kontinuert stokastisk variabel, der er normalfordelt med middelværdi m og varians s2. Tæthedsfunktionen for normalfordelingen er Egenskaber: Symmetrisk omkring m f(y) > 0 for alle y. 95% m m s m s

Goodness-of-fit for normalfordelingen
Setup: X1,…,Xn stikprøve fra normalfordeling m. ukendt m og s2. Antag og er estimater af m og s2. Vi kan inddele R i k intervaller så pi = 1/k. Her gælder c2k-3 ≤sd X2 ≤sd c2k-1

Goodness-of-fit for normalfordelingen
Monte Carlo simulation af x2-teststørrelsen med k=6: Bemærk at den empiriske fordeling ligger mellem to c2-fordelinger med hhv. 3 og 5 frihedsgrader.

Parametriske test c2-testene vi har set på indtil nu er eksempler på såkaldt ikke-parametrisk test. Testene er ikke-parametriske, da de groft sagt ikke omhandler parametre, men kun egenskaber (enten uafhængighed eller goodness-of-fit). I det følgende vil vi betragte et parametrisk problem med tilhørende parametriske test.

Parametriske hypoteser
Videnskabelige hypotese Vi påstår at havenisser i gennemsnit tjener mere end 42 kroner i timen. Data Vi har spurgt 36 havenisser om deres timeløn. Gennemsnittet var x = 43,2. Antagelser Lønningerne er normalfordelte og uafhængige Standardafvigelsen er kendt, og s = 3,2 m betegner (den sande ukendte) populationsmiddelværdi.

Kunstige havenisser Skab et ”kunstigt” normalfordelt data-sæt der passer med x = 43,2 og s=3.6. > x = rnorm(36) > x = (x-mean(x))*3.6/sd(x)+43.2 > mean(x) [1] > sd(x) [1] 3.6 hist(x) Ser jo meget normalfordelt ud…?

Hypoteser og Teststørrelse
Nul-hypotesen H0: m ≤ 42 (alt. notation H0: m = 42 ) Alternativ-hypotesen H1: m > 42 Teststørrelse Stikprøvegennemsnittet: Al tvivl skal komme H0 til gode, så vi antager at m = 42. Dvs. under H0 har vi:

Afgørelse vha. P-værdi Hypoteser: H0: m ≤ 42 vs H1: m > 42
Dvs. under H0 har vi: Jo større , jo mere kritisk for H0. Dvs. P-værdi = P( ≥ 43,2) = (Unuanceret) konklusion: Vi afviser H0 da P-værdi < 0.05 P-værdi i R: > 1-pnorm(43.2,mean=42,sd=3.2/sqrt(36)) [1] P-værdi 42 43,2

Afgørelse vha. kritisk værdi
Beslutningsregel: Vi afviser H0, hvis er større end den kritiske værdi. Vi ønsker et signifikansniveau på 5%. Kritisk værdi finder vi vha. R > qnorm(0.95,mean=42,sd=3.2/6) [1] Konklusion Da = 43,2 > 42,9 afviser vi H0. a = 5% 42 42,9

Valg af alternativ-hypotese
Videnskabelige hypotese Vi påstår at havenisser i gennemsnit tjener mere end 42 kroner i timen. Hvorfor vælger vi ikke? H0: m ≥ 42 vs H1: m < 42 P-værdi P( < 43,2 ) = 0.988 Konklusion: Vi kan ikke afvise H0… P-værdi 42 43,2

Pointer Stærkere konklusion: Vi afviser H0
Svag konklusion: Vi kan ikke kunne afvise H0. Det styrede valget af alternativ-hypotese før. Vi har lystigt regnet på ting og sager under antagelse af, at H0 er sand. Hvorfor ikke H1? Det er typisk ikke muligt, da H1 er mindre ”skarp”… HUSK: Vi skal kontrollere at antagelserne er opfyldt Her: Er stikprøven normalfordelt.

En tilbagevendende svaghed
H0-fordelinegn Antag sandheden er m = 42.1 H0: m = 42 vs H1: m ≠ 42 I virkeligheden vil gennemsnit falde her: Vi vil med mere end 95% ssh afvise H0 hvis Dvs. hvis 42 Afviser H0 Afviser H0 42 42.1 Afviser H0

Pointer Med nok data ender man næsten sikkert med at afvise H0.
Afviser vi H0 er vi ret sikre på, at H0 er forkert. Men det er ikke det samme som, at data afvigelse fra H0 har nogen praktisk betydning.

Stikprøve-gennemsnittet
Lad de stokastiske variable X1, X2,…,Xn være en tilfældig stikprøve fra en population m. middelværdi m og varians s2. Stikprøve-gennemsnittet af disse SV er er et punktestimat for m. Den forventede værdi og varians for stikprøve-gennemsnittet er og Ubiased / central / middelret estimator Konsistent estimator

Konfidensinterval for middelværdien - Opvarmning
Da gælder følgende: Dvs. med 95% sandsynlighed ligger (den stokastiske variabel) X i det faste interval Det kan omskrives til Dvs. det stokastiske interval indeholder med 95% sandsynlighed det faste tal m.

Konfidens-interval for middelværdi
0,95 0,025 0,025 Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet Omvendt, cirka 2.5% kan forventes at være under og 2.5% kan forventes at være over . Så 5% kan forventes at være udenfor intervallet 2.5% falder nedenfor intervallet 2.5% falder over intervallet 95% falder indenfor intervallet

Konfidens-interval for middelværdi
0,95 0,025 Approksimativt 95% af intervallerne omkring stikprøve-middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, . *5% af sådanne intervaller omkring stikprøve middelværdien kan forventes ikke at inkludere den faktiske værdi af populations middelværdien. 0,025 * * 95% falder indenfor intervallet

Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor
Vi har altså Hvis vi erstatter estimatoren X (”et tilfældigt tal”) med estimatet x (”et fast tal”) får vi konfidensintervallet: For en stikprøve der enten er stor eller fra en normal-population er et 95% konfidensinterval for middelværdien m når variansen er kendt Bemærk at estimatoren er er ersattet med estimatet .

Hypotesetest og konfidensinterval
Hypoteser H0: m = m0 vs H1: m ≠ m0 Teststørrelse Kritiske værdier: m0 ± 1.96 s /√n Konsekvens: Hvis Þ Ej afvis H0 ß Hvis Þ Ej afvis H0

Konfidensinterval for andele
Antal x~binom(n,p) Dvs. x er antal succeser i n uafhængige forsøg. er et estimat af p. Der gælder (jf. CLT) Et tilnærmet 95% konfindensinterval for p: ca

Monte Carlo p-værdi Simuler data under H0 og udregn teststørrelse n gange. Lad x være antal teststørrelser der er mere ekstreme end den observerede. er et estimat af p-værdien. Et tilnærmet 95% konfindensinterval for p-værdien: Afvigelsen kaldes også Monte Carlo fejlen.

Monte Carlo stikprøvestørrelse
Konfidensintervallet er hvor fejlmarginen er Isoler n giver Hvis D = og p = 0.05 fås En fejlmargin på 1 promille kræver næsten simulationer.

Students t fordeling Antag populationen er normalfordelt med middelværdi m og varians s2. Gammel viden: Hvis vi kender variansen s2, så kan vi bruge: Ny viden: Hvis vi ikke kender variansen s2, så kan vi erstatte s2 med stikprøve-variansen s2: ”følger en t-fordeling med n-1 frihedsgrader”.

Students t fordeling: definition
Lad Z~N(0,1) - standard normalfordeling X2 ~ c2(k) - c2-fordeling med k frihedsgrader. Z og X2 er uafhængige Så følger T en t-fordeling med k frihedsgrader.

Students t fordeling: egenskaber
t fordelingen er klokkeformet og symmetrisk og defineret ved antal frihedsgrader (df). Middelværdien er altid lig 0. Variansen af t er større end 1, men går mod 1, når antallet af frihedsgrader vokser. Standard normal t, df=20 t, df=10   t fordelingen er fladere og har ”tykkere haler” end en standard normal fordelingen. t fordelingen går mod standard normal fordelingen nå antallet af frihedsgrader vokser.

Konfidensinterval for  når  er ukendt - t-fordelingen
Defintion: Et (1-a)100% konfidensinterval for m når s er ukendt (og man antager en normalfordelt population): hvor er værdien i t-fordelingen med n-1 frihedsgraders, hvor sandsynligheden for at t er højere end denne værdi, er a. a / 2 ta/2

t-test Hypoteser H0: m = m0 vs H1: m ≠ m0 Teststørrelse
se = s/√n er standardfejlen. Kritiske værdier: ± ta/2

t-test i R t.test(x,mu=42,alternative=”two.sided”) One Sample t-test data: x t = 2, df = 35, p-value = alternative hypothesis: true mean is not equal to percent confidence interval: sample estimates: mean of x

Parametriske vs Ikke-parametriske metoder
Udgangspunktet er en statistisk model. Hypoteser omhandler parametrene i modellen. Undersøgelsen bygger på modelantagelser og er ”en præcis løsning, til et approksimeret problem”. Ikke-parametriske metoder Undersøgelsen bygger ikke på antagelser om specielle fordelinger og er ”en approksimeret løsning til et præcist problem”. Har lavere styrke en parametriske metoder.

Ikke normalfordelt stikprøve
Udgangspunkt: Stikprøve x1,..,xn fra én (symmetrisk) population. Alternativ til t-test af H0: m=m0. Lad m betegne medianen i populationen. Hypoteser Antagelser: Fordeling er symmetrisk. Observationerne er indbyrdes uafhængige Observationerne er skala variable H0: m = m0 HA: m ≠m0

Ranks Mange ikke-parametriske test benytter sig af ranks.
Mindste tal tildeles rank 1, næstmindste rank 2 osv. Hvis flere observationer tager samme værdi tildeles de et gennemsnitsrank. Eksempel: Antag vi har følgende observ.: (fodtegn er rank) ? 7? De to 7-taller ”burde” have fået rank 3 og 4 Derfor får de rank (3+4)/2 = 3.5 Resultat

Wilcoxon Signed-rank Test
Beregning: Udregn afvigelser fra m0: di = xi - m0. Find ranks for |di| (den absolutte/numeriske værdi af di). Dvs. mindste afvigelse får rank 1, næstmindste afvigelse får rank 2 osv. Find sum af ranks af |di| hvor di > 0 - betegnes T + sum af ranks af |di| hvor di < 0 - betegnes T - Wilcoxon signed-rank teststørrelse: T = T + Store og små værdier af T er kritiske.

Wilcoxon Signed-rank: Store stikprøver
Når n er større end 10 kan man anvende en normalfordelingsapproksimation. Under H0 gælder der for teststørrelsen T: Vi kan nu standardisere Under H0 gælder z ~N(0,1), dvs. z følger en standard normalfordeling.

Eksempel Data: Modtagne opkald i løbet af en time.
xi di |di| Rank di > 0 di < 0 151 2 1 144 -5 5 123 -26 26 13 178 29 15 15.0 105 -44 44 23 112 -37 37 20 140 -9 9 4 167 18 10 177 28 14 185 36 19 129 -20 11 160 6 110 -39 39 21 170 12 198 49 25 165 16 8 109 -40 40 22 118 -31 31 16.5 155 3 102 -47 47 24 164 7 180 139 -10 166 17 182 33 163.5 161.5 Data: Modtagne opkald i løbet af en time. Vi observeret data for 25 timer. Hypotese: Medianen er 149 H0: m = 149 vs HA: m ≠ 149 Sum af positive ranks T+ = 163.5

Eksempel - fortsat H0: m = 149 vs HA: m ≠ 149
Sum af positive ranks T+ = 163.5 Mellemregninger Teststørresle Konklusion Da Z = < 1.96 kan vi ikke afvise H0. p-værdi =

Wilcoxon Signed-rank i R
> wilcox.test(messages$Messages, mu=149) Wilcoxon signed rank test with continuity correction data: messages$Messages V = 163.5, p-value = alternative hypothesis: true location is not equal to 149 Samme resultat som før.

Mere avancerede test I det følgende vil vi kort beskæftige os med
Simpel lineær regression Til analyse af en lineær sammenhæng mellem to variable Variansanalyse Til at undersøge om middelværdien er den samme i et antal grupper.

Kriminalitet og uddannelse i Florida: Er der en sammenhæng?
crime = read.table("fl-crime.csv", header=TRUE,sep=";",dec=",") plot(crime$C ~ crime$HS) Plot af ”kriminalitet” (y) mod ”Andel high school” (x): Er der en sammenhæng?

Scatterplot Et scatterplot er et plot af to variable:
Y Et scatterplot er et plot af to variable: x : forklarende variabel (percent high school) y : respons variabel (crime rate) For den i’te observation har vi xi (crime rate for i’te distrikt) yi (% high school for i’te distrikt) Data: (x1,y1), (x2,y2),…, (xn,yn) (xi,yi) yi x xi

Forventet respons: En ret linje
Den rette linje a + bx beskriver den forventede (dvs. middel) respons: E[y] = a + bx Eksempel: E[y] = ,5x Fortolkning: Antag x = 40 (% high school), så er den forventede crime rate ,5·40 = 310 Hvis x øges med 1, så øges den forventede værdi af y med 2,5. y UK: Expected E[y] = a + bx b 1 a x Hvis x = 0 , så er den forventede værdi af y = 210.

Fejlleddet y De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen. Afvigelsen mellem punkt og linjen betegnes fejlleddet ei. Regressionsmodel: yi = a + bxi+ ei Bemærk: n fejlled e1, e2, ..., en. (xi,yi) a + bx yi ei x xi Flere detaljer og antagelser på næste slide…

Simpel lineær regressionsmodel
Y - den afhængige variabel. X - den uafhængige variabel – faste β - det græske bogstav ”beta” β0 - skæringspunkt med y-aksen β1 - hældningskoefficient iid - UK: independent, identically distributed = uafhængig, identisk fordelte ε - det græske bogstav ”epsilon” εi - det eneste stokastiske element i modellen

Lineær regressionsmodel: Figur
yi = a + bxi+ ei Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standard-afvigelse s Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Y Fordelingen af yi omkring regressionslinjen. i.i.d. normalfordelte fejlled x1 x3 x2 x4 x5 X Kontinuert forklarende variabel x

Visuelt check af antagelser
Lav et scatter plot y y √ % y √ % y x

En tilnærmet linje En estimeret regressionslinje er givet ved: Her er
y En estimeret regressionslinje er givet ved: Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y) Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi (xi,yi) E[y] = a + bx = a + bx yi ei = a + bx x xi

Mindste kvadraters metode
y Summen af de kvadrede residualer betegnes: UK: Sum of Squared Errors. SSE kan skrives som (xi,yi) E[y] = a + bx yi ei = a + bx x xi Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode.

Forklaret og uforklaret afvigelse
yi’s afvigelse fra kan opdeles i to: y Uforklaret afvigelse Totale afvigelse Forklaret afvigelse x

Multipel determinations koefficient
Den totale variation i y’erne: Den uforklarede del af variationen i y’erne: Den forklarede del af variationen i y’erne: (Total Sum of Squares) (Sum of Squared Errors) (Sum of Squars for Regression)

Multipel determinations koefficient
Der gælder Dvs. Forklarede var. = Uforklarede var. + Forklarede var. Determinationskoefficienten Fortolkning: Andelen af den totale variation, der er forklaret.

Hypotesetest af b Nul-hypoteser: H0: b = 0 Alternativ-hypoteser:
Ha: b  0 Ha: b > 0 Ha: b < 0 Teststørrelse Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader

Ikke-lineær sammenhæng
Fortolkning af H0: β = 0 Er der en lineær sammenhæng mellem X og Y? H0: β1 = 0 ingen lineær sammenhæng Ha: β1 ≠ 0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

Simpel lineær regression i R
model = lm(C~HS,data=crime) Summary(mode) Call: lm(formula = C ~ HS, data = crime) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) * HS *** Konklusion: Andel af folk der har gennemført high school (HS) påvirker omfanget af kriminalitet (C).

Regressionslinje i SPSS
plot(crime$C~crime$HS) abline(model)

Multipel lineær regression
Vi tilføjer graden af urbanisering: model2 = lm(C ~ HS + U, data = crime) summary(model2) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) HS U e-06 *** Umiddelbart er det kun urbaniseringen og ikke uddannelse, der har en betydning for kriminaliteten.

Proxy High school er en proxy (”erstatnings variabel”) for urbanisering: plot(crime$HS ~ crime$U) Crime rate Urbanization Education

Variansanalyse (ANOVA )
Analysis of Variance Setup: Kun kategoriske forklarende variable Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X1: Shoppestil (Shopping style - style) Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O) Spørgsmål: Påvirker ’style’ forbruget?

Grafisk overblik plot(grocery$amtspent~grocery$style)

Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: To binære dummy variable: XB og XW Bemærk: k kategorier omkodes til k-1 dummy variable Model: Style XB XW Biweekly 1 Weekly Often

Hypotesen Model: E[Y | Style = B] = a + bB E[Y | Style = W] = a + bW
E[Y | Style = O] = a Bemærk: bB og bW angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori. Hypotese: Middelværdien er den samme for alle styles: H0: bB = bW = 0 H1: bB  0 og/eller bW  0 Afgøres vha. et F-test.

ANOVA i R model3 = lm(amtspent~factor(style),data=shopping)
summary(model3) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) <2e-16 *** styleWeekly styleOften anova(model3) Analysis of Variance Table Response: amtspent Df Sum Sq Mean Sq F value Pr(>F) style Residuals

Bayesiansk statistik Indtil nu har vi tænkt på sandsynligheder som andelen af succeser ”i det lange løb”: #succeser / #forsøg → P(succes). I bayesian statistik er sandsynligehder subjektive! Eksempler Sandsynligheden for at to virksomheder fusionerer Sandsynligheden for at en aktiekurs stiger Sandsynligheden for at det regner i morgen Typisk vil vi udtale os om en parameter q, fx m, s2 or p. Hvordan gøres det med subjektive sandsynligheder?

Bayesiansk statistik: Prior
Bayesianske ide: Be beskriver vores “viden” om parameteren q vha. tæthedsfunktion p(q). Denne er kendt som a priori foirdelingen (eller bare ‘prioren’) – idet den beskriver situationen inden vi har set data. Eksempel: Antag q er sandsynligheden for succes (0<q<1). Prioren beskriver de værdier vi tror q har:

Bayesian statistik: Posterior
Lad x betegne vores data. Den betingede fordeing af q givet x betegnes posterior fordelingen: Her betegner f(x|q) datas fordeling betinget af q. Eksempel: Lad x betegne antal succeser i n forsøg. Betinget af q, følger x en binomialfordeling:

Bayesiansk statistik Vi observerer n = 100 forsøg med x = 30 successer, dvs. x/n = 0.3 Posterioren – vores ”viden” efter at have set data: Gråt område: A priori fordelingen Linje: A posteriori fordelingen Bemærk at de tre a posteriori fordelinger ligner hinanden.

Bayesiansk statistik: Matematikken bag
Som prior har vi brug en såkaldt beta-fordeling med parametre a > 0 and b > 0: Posterioren er da en beta fordeling med parametre a+x og b+n-x.

Statistik Brogaarden 20. og 21. januar 2014.

Lignende præsentationer

Præsentationer af emnet: "Statistik Brogaarden 20. og 21. januar 2014."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Statistik Brogaarden 20. og 21. januar 2014.

Lignende præsentationer

Præsentationer af emnet: "Statistik Brogaarden 20. og 21. januar 2014."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback