Statistik Brogaarden 20. og 21. januar 2014.

Slides:

Advertisements

Lignende præsentationer

Den danske befolknings syn på handicappedes rettigheder

Advertisements

Atomer Et programmeret forløb. En måde at lære på.

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Hypotese test – kapitel 6 (Signifikans test)

Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)

Anvendt Statistik Lektion 3

v/ Professor Lars Ehlers, Aalborg Universitet

Repræsentativitet Sandsynligheden for at få krone ved kast med en mønt

Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori

Anvendt Statistik Lektion 4

Statistik Lektion 17 Multipel Lineær Regression

Program Informationer χ2-test (chi-i-anden) Projekt 3

Bolig selskabernes Landsforening– Almene lejeboliger - Maj/Juni Almene lejeboliger - Danmarkspanelet - Maj/Juni 2010.

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Anvendt Statistik Lektion 6

Anvendt Statistik Lektion 2

Statistik Lektion 3 Simultan fordelte stokastiske variable

Anvendt Statistik Lektion 5

Sammenligning af to grupper

Sammenligning af to grupper – kapitel 7

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Anvendt Statistik Lektion 3

Anvendt Statistik Lektion 6

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.

Anvendt Statistik Lektion 8

Statistik Lektion 5 Log-lineære modeller.

Titel: Arial, fed, skriftstr. 20, mørkegrå. Tekst: Arial, normal, fed eller kursiv, skriftstr. 10, 12 og 14 til print – 16 og 18 til projektor – mørkegrå.

Anvendt Statistik Lektion 2

Statistik Lektion 6 Konfidensinterval for andele og varians

Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Signifikanstest ved (en eller) to stikprøver

Region Midtjyllands tilbud 2013

Learning Objectives 5 Steps of a Significance Test Assumptions

Statistik II 5. Lektion Log-lineære modeller.

Statistik Lektion 3 Bernoulli og binomial fordelingerne

Learning Objectives 5 Steps of a Significance Test Assumptions

Statistik Lektion 7 Hypotesetest og kritiske værdier

Statistik Lektion 7 Hypotesetest og kritiske værdier

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Anvendt Statistik Lektion 7

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Simpel Lineær Regression

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel

Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl

Multipel Lineær Regression

Statikstik II 2. Lektion Lidt sandsynlighedsregning

Bernoulli og binomial fordelingerne

Statistik Lektion 7 Hypotesetest og kritiske værdier

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.

Økonometri – lektion 5 Multipel Lineær Regression

Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.

Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber

Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.

Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel

Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.

Økonometri – lektion 8 Multipel Lineær Regression

Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.

Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.

Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.

Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.

Grundlæggende teoretisk statistik

Statistik II 4. Lektion Logistisk regression.

Anvendt Statistik Lektion 8

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Anvendt Statistik Lektion 4

Anvendt Statistik Lektion 6

Præsentationens transcript:

Statistik Brogaarden 20. og 21. januar 2014

Introduktion Mig Kasper K. Berthelsen, statistiker kkb@math.aau.dk people.math.aau.dk/~kkb Min arbejdsplads Institut for Matematiske Fag, AAU www.math.aau.dk Statistikgruppen 2 professorer, 8 lektorer, 2 adjunkter, 4-6 ph.d. studerende.

Matematiske uddannelser ved AAU To-fags-uddannelse (”Gymnasielæreruddanelsen”) Fx. matematik og fysik, matematik og dansk… Et-fags-uddannelse (”Anvendt matematik”) 4 år med matematik og 1 år med ”noget andet”, Ofte er det ene år på en ingeniør-retning. Matematik-Økonomi – 5-årig kandidatuddannelse Matematik-Teknologi – 5-årig kandidatuddannelse Seneste optage er 60-65 studerende Kandidatproduktion 5-10 studerende… må forventes at vokse

Tilbud til gymnasieelever Studerende for en dag Kontakt sekretær Lisbeth Grubbe grubbe@math.aau.dk Numbers bloggen numb3rs.math.aau.dk Masser af inspiration i mere end 200 blog-indlæg Studiepraktik www.studiepraktik.aau.dk

Statistik – hvad er det? Statistik er kunsten at drage en generel konklusion på baggrund af ufuldstændig information. Det er uinteressant at finde ud af om der er (statistisk signifikant) forskel på udfaldet af to valg. Jeg kan jo bare tælle stemmerne…. Har jeg kun lavet en rundspørge, så er det straks mere interessant. I statistik består data af to komponenter En systematisk variation (”signal”) En tilfældig variation (”støj”) Statistik handler om at fjerne støj fra data.

Eksempel på (u)statistisk problemstilling Matematik B, Studentereksamen 2012 Ifølge hjemmesiden givblod.dk er fordelingen af blodtyper i den danske befolkning som følger: Tabellen nedenfor viser, hvorledes de 950 patienter i en bestemt lægeklinik fordeler sig på blodtyperne. Lægeklinikken vil undersøge nulhypotesen: Lægeklinikkens patienter har samme blodtypefordeling, som den danske befolkning.

Statistik: Religionskrig Der findes to hovedretninger indenfor statistik Frekventiel statistik Her er sandsynligheder baseret på frekvenser Den klassiske metode Bayesiansk statistik Baserer sig på subjektive sandsynligheder Moderne? Mere naturlig? Der har tidligere været en vældig krig mellem de to retninger…

Mange forskellige statistiske discipliner Survey/sprøgeskema Overlevelsesanalyse Longitudinelle analyser (gentagede målinger over tid) Tidsrækkeanalyse (fx aktiekurser) Rumlig statistik osv. osv. Anvendelsesområder: Biostatistik / biometri Økonometri Psykometri osv osv

Hvad så med mig…? Jeg beskæftiger mig med rumlig statistik. Mest punktprocesser: ”Støj” = placering Mindre geostatistik: ”Støj” = målte værdier

Hvad så med mig…? Simulationsbaseret inferens Særligt Markov kæde Monte Carlo Formål: Skabe en sekvens af afhængige stokastiske variable, der har de rette egenskaber i det lange løb…

En population og en stikprøve Konkret: Stemmeberettigede i Danmark Abstrakt: Alle målinger af lysets hastighed Stikprøve Vi udvælger (tilfældigt) elementer fra populationen. Kan gøres på mange måder. Ide: Vi vil gerne udtale os om hele populationen med udgangspunkt i stikprøven. Princip: Vi skal gøre dette med tanke på, at stikprøven er tilfældig. Vi kunne have været uheldige…

Stikprøveudtagning Tilfældig Alle elementer i populationen har lige stor sandsynlighed for at blive udvalgt. Eksempel: CPR-registret. Stratificeret Populationen inddeles i undergrupper (strata). Man udtager en tilfældig stikprøve fra hver gruppe. Nyttig metode, hvis man vil sikre at alle delgrupper er repræsenteret i stikprøven. Eksempel: Sammenligning af hjemløse og resten.

Stikprøveudtagning Cluster sampling. Man vælger et antal ”steder” i befolkningen og sampler i nærheden. Eksempel: Tilfældige veje i en kommune udvælges, hvorefter alle på de vej bliver spurgt. Problem: Systematiske fejl I den virkelige verden opstår mange statistiske fejl allerede i indsamlingsfasen… Ofte introduceres systematisk fejl – såkaldt bias.

The Literary Digest Poll (1936) Ikke-biased stikprøve Ikke-biased, repræsentativ stikprøve fra hele populationen. Demokrater Republikanere Population Biased stikprøve Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest. Folk, der har telefon og/eller bil og/eller læser Digest. Demokrater Republikanere Population Literary Digest resultat: Alfred Landon slår Frenklin Roosevelt stort. Faktiske resultat: Landskredssejr til Roosevelt.

Andre slags bias Formulering af spørgsmål har betydning for svar: In favour of new gasoline tax: 12% yes In favour of new gasoline tax to reduce US dependence on foreign oil: 55% yes In favour of new gasoline tax to reduce global warming: 59% yes

Andre slags bias Rækkefølgen af spørgsmål. Under den kolde krig blev følgende to spørgsmål stillet: Do you think the U.S. should let Russian newspaper reporters come here and report back whatever they want? Do you think Russia should let American newspaper reporters come in and report back whatever they want? 36% svarer ja til A. hvis det er første spørgsmål. 73% svarer ja til A. hvis det er andet spørgsmål.

Andre slags bias I en amerikansk undersøgelse afhang svarene i et telefoninterview af, den interviewedes forestilling om interviewerens etniske tilhørsforhold. Is the US society fair to everyone? 14% / 31% I medicinske forsøg: Alle der oplever bivirkninger dropper ud. Konklusion: Ingen bivirkninger… Medicinsk vs Kirurgisk behandling. Svage patienter udsættes ikke for den kirurgiske behandling.

Sandsynlighed: Opvarmning Udfald Resultatet af et ”eksperiment” kaldes et udfald. Eksempler: Eksperiment: Vælg en partileder / mål lysets hastighed Udfald: Lars / 299791 km/s (stikprøver fra hvilke populationer…?) Hændelse En hændelse er en mængde af udfald. Vælge en kvinde / Hastighedsmåling er ml. 299790 km/s og 299793 km/s

Sandsynlighed Sandsynlighed Sandsynligheden for en hændelse A er andelen af gange eksperimentet resulterer i hændelsen A i det lange løb. Notation P(A) betegner sandsynligheden for hændelsen A. Det behøver ikke være sådan: Hva’ nu hvis… P(Bayern München vinder CPL) P(Det regner i morgen) Eksempler på subjektive sandsynligheder

Sandsynlighed: Egenskaber og regneregler 0 ≤ P(A) ≤ 1 P(A) = 0 - hændelsen A indtræffer aldrig. P(A) = 1 - hændelsen A indtræffer hver gang. P( ikke A) = 1 – P(A) Hvis A ikke indtræffer, så må ”ikke A” nødvendigvis indtræffe Hvis hændelserne A og B ikke kan indtræffe samtidigt gælder: P( A U B ) = P(A) + P(B)

Betinget sandsynlighed Hvis A og B er mulige udfald, så gælder Hvilket kan omskrives til multiplikationsreglen: P(A ∩ B) = P(A)P(B | A)

Uafhængighed Uafhængighed To hændelser A og B er uafhængige hvis og kun hvis hvilket kan omskrives til P( B | A ) = P(B)

Stokastisk variabel X Stokastisk variabel Antag vi kan knytte en talværdi til hvert udfald af et eksperiment. Hvert eksperiment fører således til et tilfældigt tal. Dette tilfældige tal kaldes en stokastisk variabel. X 1 5

Diskret stokastisk variabel (SV) En stokastisk variabel X er diskret, hvis den kun kan tage et tælleligt antal værdier. Typisk 0, 1, 2, 3,… Lad P(k) betegne sandsynligheden for at den stokastiske variabel X tager værdien k. Dvs. P(1) = ”sandsynligheden for y tager værdien 1”. P(x) skal opfylde: 0 ≤ P(x) ≤ 1 for alle x. Salle xP(x) = 1

Kontinuert stokastisk variabel Hvis y er en kontinuert stokastisk variabel kan den tage alle værdier i et interval. Vi angiver sandsynligheden for at X falder i et interval [a ; b] ved et areal under en kurve. Tæthedsfunktion f(x) P(1 ≤ X ≤ 2) = Areal

Tæthedsfunktionen (Sandsynligheds)Tæthedsfunktion f(x)

Middelværdi og varians for SV

Normalfordelingen Normalfordelingen Klokkeformet og (fuldstændigt) karakteriseret ved middelværdi m og standardafvigelse s. Notation: x ~ N(m,s2) betyder at y er en kontinuert stokastisk variabel, der er normalfordelt med middelværdi m og varians s2. Tæthedsfunktionen for normalfordelingen er Egenskaber: Symmetrisk omkring m f(x) > 0 for alle x. 95% m m-1.96s m+1.96s

Standardafvigelsen σ når X~N(μ,σ2) Cirka 68% af all observationer ligger indenfor en standard afvigelse fra middelværdien Cirka 95% af alle observationer ligger indenfor 1.96 standard afvigelser fra middelværdien Cirka 99.7% af alle observationer ligger indenfor 3 standard afvigelser fra middelværdien

Chebychevs ulighed (Tjebysjov?) Lad X være en stokastisk variabel med middelværdi m og varians s2>0. Da gælder følgende ulighed Eksempel: k = 2 Dvs. sandsynligheden for at afvige mere end to standardafvigelser fra middelværdien er altid mindre en 25%.

Interessante størrelser I statistik optræder masser af stokastiske variable. Ofte er vi interesserede i at udregne en eller flere af følgende tre størrelser Middelværdi m = E[X] Variansen s2 = Var(X) = E[(X-m)2] Sandsynlighed p = P(X ∈ A) Dette kan være svært - eller umuligt. En løsning er (computer) simulationer.

Simpel Monte Carlo X stokastisk variabel ~ P Middelværdi: E[X] = m Antag X1, X2,…, Xn ~ P og uafhængige. Udregn stikprøvegennemsnit Da er et Monte Carlo estimat af m. Kan udvides til afhængige X1, X2,…, Xn Hvis X1, X2,… er en Markov kæde, så kaldes det MCMC. MCMC = Markov chain Monte Carlo.

Middelværdier er (næsten) alt! Antag vi er interesseret i en sandsynlighed p. Vi har Bernoulli variabel X som vi kan simulere P(X = 1) = p og P(X = 0) = 1 - p Middelværdien: Simuler uafh.: X1, X2,…, Xn ~ Ber(p) Monte Carlo estimat af p:

Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Sætning: Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af Tommelfingerregel: n = 30 er nok til en god tilnærmelse. Praktisk omskrivning: Dvs. Monte Carlo estimatet er tilnærmet normalfordelt.

Simulation i R Man kan simulere en normalfordeling x = rnorm(n=1000, mean=198, sd=10) mean(x) ## stikprøvegennemsnit [1] 198.3801 sd(x) ## stikprøvestandardafvigelse [1] 10.02518 hist(x) ## histogram

Lidt flere plot i R hist(x,freq=FALSE) curve(dnorm(x,mean=198,sd=10), 150,250,add=TRUE) Den kumulerede fordelingsfunktion (F(x) = P(X≤x)) curve(pnorm(x,mean=198,sd=10), 150,250)

Monte Carlo eksempel i R Antag X ~N(198,100) Find P(X<190) Simuler stikprøve fra normalfordeling: x = rnorm(n=1000,mean=198,sd=10) mean(x<190) ## falsk = 0 / sand = 1 [1] 0.207 Korrekte svar findes vha. pnorm(q=190,mean=198,sd=10) ## kumulerede ford. [1] 0.2118554

For at illustrere CLT kan vi nemt gentage Monte Carlo simulationen 2500 gange: > xbar = replicate(2500,mean(rnorm(n=1000,mean=198,sd=10)<190)) > hist(xbar,breaks=25,freq=FALSE)

c2-fordelingen Antag Z1,Z2,…,Zk er k uafhængige standard normalfordelte stokastiske variable, dvs. Zi ~ N(0,1). Definer Da følger W en c2-fordeling med k frihedsgrader. Tæthedsfunktionen for c2-fordeling med k frihedsgrader er

c2-fordelingen c2-fordeling… antager kun positive værdier er højreskæv df = 5 df = 10 c2-fordeling… antager kun positive værdier er højreskæv df = 10 facon er givet ved antal frihedsgrader (df = degrees of freedom) har middelværdi m = df og varians s 2 = 2df.

R R er et open source statstikprogram og programmerings-sprog introduceret i 1993. Seneste version er 3.0.2 R kan downloades på www.r-project.org R er i udgangspunktet uden peg-og-klik Mere end 2000 pakker (udvidelser a la et plugin) I det følgende tager vi udgangspunkt i Windows versionen. Der eksisterer versioner til Mac og Linux. For at få en smartere brugerflade anvender vi RStudio

RStudio Sådan ser RStudio typisk ud første gang man starter det. Nederste vestre vindue er hvor man snakker direkte med R vha. tekst-kommandoer.

RStudio – lidt opsætning Det er nyttigt at ændre R’s standard-mappe. Vælg Tools → Options Under ‘Default working directory..’ vælg den mappe hvor I vil gemme filer relateret til R (fx. data)

R hjælp Man kan få hjælp vha. ?<kommando> > ?sum Man kan få RStudio til at gætte vha. Tab-knappen Man kan også søge efter hjælp vha. > help.search("plot")

Statistisk test: Motivation (based on a true story…) Setup: Vi vil undersøge om der er sammenhæng mellem køn og om man gennemfører sit studie på normeret tid! Vi har spurgt 2000 (fiktive) AAU kandidater. Opsummering af data i en kontingenstabel Er der en sammenhæng ml. køn og rettidighed?

Hypotesetest Vi vil afgøre spørgsmålet vha. et såkaldt hypotesetest. Denne testteori er udvikle af Neyman og Pearson i 30erne. Grundlæggende ide: Vi inddeler verden i to Nul-hypotesen (H0) (Der er ingen sammenhæng) Alternativ-hypotesen (H1) (Der er en sammenhæng) Princip: Nul-hypotesen er sand indtil det modsatte er ”bevist”. Alle udregninger foretages under antagelse af H0. Tvivlen skal altid komme nul-hypotesen til gode.

Forventede antal under H0 Nu tager vi udgangspunkt i at H0 er sand – dvs. ingen sammenhæng! Hvilke antal havde vi forventet, hvis H0 var sand? Uden sammenhæng burde andelen af ”På normeret tid” være den samme blandt mænd og kvinder, dvs. 64.25%. Da der er både 1000 mænd og kvinder ville vi forvente 642.5 ”rettidige” kandidater.

Observerede vs. Forventede antal En sammenligning af forventede og observerede antal: Er de observerede antal for langt fra de forventede til at vi kan tro på H0? Observeret antal Forventet antal

Observerede vs. Forventede antal Observeret antal Forventet antal Vi måler ”afstanden” mellem observerede og forventede vha. O3 E3

Resultat og Konklusion Så ”afstanden” en 48,33… er det for stor? Tommelfinger-regel (for 2x2 tabel): Afstanden er for stor hvis c2 > 3.84. Konklusion: Afstanden er for stor! Vi tror ikke på ”H0: Ingen sammenhæng”. Med andre ord: Der er en sammenhæng! Mere præcist: Der er en statistisk signifikant sammenhæng.

Forventede antal: Uafhængighed De forventede antal kan også udregnes med udgangspunkt i definitionen på uafhængige hændelser: Lad P(i,j) være sandsynligheden for at en tilfældig observation havner i celle (i,j). Lad N være det totale antal observationer. Det forventede antal i celle (i,j) er N· P(i,j).

Forventede antal: Uafhængighed Hvis der er uafhængighed så P(i,j) = P(i)P(j), dvs. det forventede antal er N· P(i)P(j). Antag Ni og Nj er antal observation i hhv. række i og kolonne j. Vi kan nu estimere de marginale sandsynligheder. Dvs. P(i) = Ni / N og P(j) = Nj / N Det forventede antal i celle (i,j) er da N· P(i)P(j) = N·P(i)(Ni / N)(Nj / N) = Ni Nj / N

Tabeller i R matrix(c(283,717,432,568),2,2,byrow=TRUE) [,1] [,2] [1,] 283 717 [2,] 432 568 as.table(matrix(c(283,717,432,568),2,2,byrow=TRUE)) A B A 283 717 B 432 568 tabel = as.table(matrix(c(283,717,432,568),2,2,byrow=TRUE)) addmargins(tabel) A B Sum A 283 717 1000 B 432 568 1000 Sum 715 1285 2000

c2-test i R > chisq.test(tabel) Pearson's Chi-squared test with Yates' continuity correction data: tabel X-squared = 47.6809, df = 1, p-value = 5.016e-12 > chisq.test(tabel)$statistic X-squared 47.68088 > chisq.test(tabel)$p.value [1] 5.015596e-12

Hvor kommer de 3,84 fra? For at forstå, hvor den kritiske værdi 3,84 kommer fra, så skal vi første forstå, hvor 2x2 tabellen kommer fra. Der er n observationer, hvor Oij samtidigt tilhører population Aj og Bi. …men hvordan er data indsamlet? A1 A2 B1 O11 O12 R1 B2 O21 O22 R2 C1 C2 n

Hvor kommer de 3,84 fra? Vores 2x2 tabel kan opstå på en af tre måder: Vi har indsamlet n tilfældige observationer og kategoriseret dem mht. variablene A og B. Vi har indsamlet R1 observationer fra population B1 og tilsvarende indsamlet R2 observationer fra population B2. Indsamlet n observationer betinget af, at de marginale antal er givet ved R1, R2, C1 af C2. Asymptotisk, dvs. i grænsen når n vokser, så følger X2 i alle tre tilfælde en c2-fordelingen med 1 frihedsgrad.

Hvor kommer de 3,84 fra? For lille n er fordelingerne under de tre setup forskellige. Vektoren (O11, O12, O21, O22) er multinomialfordelt, med sandsynligheder (p11, p12, p21, p22). Under H0 gælder p11/p12 = p21/p22. O11 og O21 er uafhængige og binomialfordelte med antal parametre R1 og R2. Under H0 har de samme sandsynlighedsparameter. Under H0 følger O11 en såkaldt hypergeometrisk fordeling. Husk: Asymptotisk, dvs. i grænsen når n vokser, så følger X2 i alle tre tilfælde en c2-fordelingen med 1 frihedsgrad.

Hypergeometriske fordeling En hypergeometrisk fordeling beskriver følgende situation: Sandsynligheden for k succeser i n trækninger uden tilbagelægning fra en endelig population af størrelse N med K succeser. Hvis X følger en hypergeometrisk fordeling (parametriseret som ovenfor), hvis

Hvor kommer de 3,84 fra? Antag at H0 er sand – dvs. ingen sammenhæng! Vigtigt! Forestil jer, at vi nu udfører 10.000 nye undersøgelser af sammenhængen mellem køn og studietid. Trick: ”Omrøring” Svarer til situation 3! Ja ♀ Ja Nej ♂ Ja

Hvor kommer de 3,84 fra? Antag at H0 er sand – dvs. ingen sammenhæng! Vigtigt! Forestil jer, at vi nu udfører 10.000 nye undersøgelser af sammenhængen mellem køn og studietid. Vi får 10.000 nye tabeller! Vi får 10.000 nye c2-værdier! De 3,84 er valgt, så for 5% af tabeller overskrider c2-værdien 3,84. Konsekvens? Her forkaster vi H0.

c2-fordelingen Histogrammet passer med en c2-fordeling (med én frihedsgrad): Areal = 5% Forkast H0. Forkast H0.

Omrøring i R ## Genskab data ud fra tabel data = TableData(2,2,c(283,717,432,568)) ## Nulstil variabel X2 X2 = 0 ## Omrøring og efterfølgende test 1000 gange for(i in 1:1000){ data$A = sample(data$A) data$B = sample(data$B) tabel = table(data) X2[i] = chisq.test(tabel)$statistic }

Grafisk opsummering hist(X2,freq=FALSE,breaks=50) curve(dchisq(x,df=1),0,25,add=TRUE) > quantile(x=X2,probs=0.95) 95% 3.65922

Lidt asymptotik Et c2-test for uafhængighed i en r x c tabel er asymptotisk c2-fordelt med (r-1)(c-1) frihedsgrader. Asymptotikken består i at det totale antal observationer vokser. Tommelfingerregel: Hvis Ei≥5 for alle celler, så har asymptotikken ”slået til”. Dvs. hvis Ei≥5 for alle celler, så anvender vi en c2-fordeling til at finde de kritiske værdier.

Type I fejl Hvis vi afviser H0, selvom den er sand, så har vi begået en Type I fejl. Sandsynligheden for at begå en Type I fejl betegnes signifikansnivauet og betegnes a. Når vi bruger 3,84 er så er sandsynligheden for at begå en Type I fejl (i princippet) 5%. 3,84 kaldes en kritisk værdi. Vi kan nemt undgå at begå en Type I fejl…! Hvordan?

Antag at H0 ikke passer! Antag at den sande fordeling af svar passer med følgende tabel: Vi skaber 10000 tabeller og 10000 c2-værdier Nu begår vi en anden slags fejl…! (0,2242) Mænd 40% 60% Kvinder Mænd 33 68 Kvinder 55 44 Forkast H0.

Type II fejl Hvis vi ikke afviser H0, selvom den er falsk, så har vi begået en Type II fejl. I eksemplet er sandsynligheden for Type II fejl = 22.42%. Hvordan undgår man Type II fejl? Sandsynligheden for at afvise en falsk H0 kaldes styrken. - afhænger naturligvis af hvad ”sandheden” er. At få det korrekte signifikansniveau er ”nemt” – kunsten er at finde et test med en høj styrke.

Simulere H1 i R ## Nul-stil variabel X2.H1 = 0 for(i in 1:10000){ ## Simuler tilfældig tabel med givne ssh’er data = rTableData(2,2,c(0.4,0.6,0.6,0.4),200) ## Udfør chi-i-anden test og gem X^2-værdi X2.H1[i] = chisq.test(table(data))$statistic } ## Tegn histogram hist(X2.H1,freq=FALSE, breaks=50)

P-værdi En mere nuanceret metoder benytter P-værdien. P-værdien er sandsynligheden for at observere en mindst lige så ekstrem teststørrelse ”næste gang”, hvis nul-hypotesen er sand. Hvad der menes med ”mere ekstrem” afgøres af alternativ-hypotesen: Jo mere teststørrelsen peger i retning af alternativ-hypotesen jo mere ekstrem er den. I studenter-eksemplet: Jo større c2, jo mindre tror vi på H0. Vi afviser H0, hvis p-værdien < 5%.

c2-test vha. P-værdi P-værdien er sandsynligheden for mere kritiske værdier, hvis H0 er sand P-værdien findes. vha. computer/lommeregner c2 , df = (r – 1)(c – 1) Grønne areal = P-værdien c2 Teststørrelsen, fx c2 = 48,33

Eksempel: Køn og rettidighed Teststørrelsen er c2 = 48,33 P-værdien er P = 0,0003. Konklusion: Da P-værdien er mindre end 0.05 afviser vi H0 Dvs. vi accepterer at der er en sammenhæng mellem køn og hvor rettidigt man afslutter sit studie. P-værdien 48,33

Fortolkning af P-værdi Nyttig og uformel fortolkning P-værdien er et udtryk for, hvor godt data passer med H0-hypotesen. Jo mindre P-værdien er… jo mindre sandsynligt er det at observere end mindst lige så ekstrem værdi næste gang (hvis H0 er sand). jo mere ekstrem er teststørrelsen (hvis H0 er sand) jo mindre troværdig er H0. Beslutningsregel (hvis man ikke vil tænke selv): Vi afviser H0, hvis P-værdien er mindre end fx 5%. Andre bruger 1% eller 10% - kommer an på omstændighederne.

Dokumenterede misforståelser… Citater fra gymnasiebog i samfundsfag i forbindelse med c2-test: Tekst der handler om P-værdien: ”Ved at gennemføre testen fås et resultat på 0,000144,…” ”Hvad betyder værdien på 0,000144? Værdien er sandsynligheden for at der ikke er sammenhæng. Der er således en sandsynlighed på 0,99856 for at sammenhængen mellem køn og partivalg er signifikant.” *Det skal understreges at andre allerede har gjort forlaget/forfatterne opmærksom på ovenstående fejl, og at der i den forbindelse er publiceret en rettelse på forlagets hjemmeside.

Pointer P-værdien er ikke sandsynligheden for at H0 er sand. Det er for simpelt at sammenligne P-værdien med fx 5%. Husk at tænke over, om vores antagelser opfyldt (fx Ei≥5). Spørgsmål 1: Hvis H0 er sand, hvilken fordeling følger P-værdien? Spørgsmål 2: Hvordan finder man en P-værdi uden en ”tabel”.

Fordelingen af P-værdien Hvis H0 er sand, så er P-værdien ligefordelt mellem 0 og 1. Simulation under H0 af 10.000 2x2 tabel med hver 10.000 svar. Histogram for de tilhørende 10.000 P-værdier: Tilsvarende histogram, hvis hver tabel består af kun 200 svar

Monte Carlo P-værdi Ingrediens: Simulation af data under H0. Opskrift Mænd 33 68 Kvinder 55 44 Ingrediens: Simulation af data under H0. Opskrift Simuler data under H0. For hvert simuleret data-sæt finder vi c2. Monte Carlo P-værdi Andelen af simulerede c2-værdier > obs c2-værdi. Tabel P-værdi: 0.0027 (= 0.0014)

Monte Carlo p-værdi i R data = TableData(2,2,c(33,68,55,44)) tabel = table(data) X2.data = chisq.test(tabel)$statistic ## Teststørrelse for data X2 = 0 for(i in 1:10000){ ## 10.000 gange omrøring data$A = sample(data$A) data$B = sample(data$B) tabel = table(data) X2[i] = chisq.test(tabel)$statistic }

Ny Teststørrelse Med Monte Carlo kan vi konstruere nye teststørrelser. Fx Testsørrelsen er Maxi ( Ei – Oi ) H0 sand H0 falsk Kritisk værdi Sandsynlighed for Type II fejl

Pointer Med en Monte Carlo tilgang kan vi ”nemt” finde en P-værdi. Nemt at konstruere en ny teststørrelse og et nyt test med det korrekte signifikansniveau. Motivationer for at undersøge andre teststørrelser: Øge styrken? Resultat af en bedre model.

Mål for sammenhæng (a la korrelation) Race For Imod Total Hvid 360 240 600 Sort 160 400 1000 Race For Imod Total Hvid 600 Sort 400 1000 P-værdi = 1 P-værdi = 0 Forskel i andel hvide Forskellen i andele er et udtryk for styrken af sammenhængen mellem række og søjle variabel. Ingen sammenhæng Stærk sammenhæng

Mål for sammenhæng Eksempler på 2x2 tabeller og tilhørende mål for sammenhæng. Bemærk: Målet er ikke symmetrisk: 25 30 20 35 15 40 10 45 5 50 0.0 0.2 0.4 0.6 0.8 1.0 80 20 40 10 80 40 20 10 0.3 0.0

Mars vs Snickers! Hvad kan du bedst li’? Mars eller Snickers? Vi har spurgt 100 mænd og 100m kvinder. En udregning viser, at X2 = 0,08 svarende til p-værdi = 0.8875 Mål for sammenhæng: 0.49-0.51 = -0.02 Spørgsmål: Er der en statistisk signifikant sammenhæng / forskel? Har den observerede forskel en praktisk betydning?

Mars vs Snickers! Flere folk! Vi spørger nogle flere! 200 mænd og 200 kvinder: Statistisk signifikant forskel? Praktisk forskel? 10.000 mænd og 10.000 kvinder: Vi udregning viser at X2 = 0,16. Sammenh.: -0.02 Vi udregning viser at X2 = 8,00. Konklusion?

Pointer P-værdien er ikke et udtryk for styrken af en sammenhæng. Der er en forskel på praktisk signifikans og statistisk signifikans. P-værdien er et udtryk for, hvor meget vi tror på H0 givet data.

Tilbage til Kandidat-undersøgelsen Kan det virkelig passe at kvinder er dårligere til at gennemføre på normeret tid??? Vi har faktisk spurgt om en ekstra ting: Hvilket fakultet har du studeret ved? TekNat (En af de teknisk naturvidenskabelige uddannelser) Samf (En af de samfundsvidenskabelige uddannelser) Vi laver nu en tabel for hvert af de to fakulteter!

Et Universitet - To Tabeller c2 = 0,024 c2 = 0,361 Konklusion?

Forklaret sammenhæng Konklusion: Om man gennemfører sit studie til tiden… Afhænger af fakultet! Afhænger ikke af køn! Hvorfor konkluderede vi først at køn har en betydning? TekNat-studier er nemme at gennemføre til tiden Samf-studier er svære at gennemføre til tiden. Piger foretrækker de svære studier. Drengene foretrækker de nemme studier. Og husk: Jeg har fundet på det hele…

Betinget uafhængighed To hændelser A og B er betinget uafhængige givet hændelsen C, hvis og kun hvis Grafisk fremstilling (for variable) C Fak A B Køn Tid

Pointer Vi kan finde sammenhænge ml. to variable… …men i virkeligheden er der ingen sammenhæng, da de er betinget uafhængige! Ovenstående problem kan ikke løses af en statistiker  Der er ingen indlysende måde, at ”opdage”, at man mangler en vigtig variabel. Løsningen kræver input fra en person med indsigt i den praktiske problemstilling.

Tabeller med få observationer Indtil nu har vi antaget at c2-fordelingen beskriver X2-teststørrelsens fordeling godt. For 2x2 tabeller, hvor de observerede antal er små er c2-fordelingen en dårlig tilnærmelse. I disse tilfælde er det almindeligt, at anvende Fishers eksakte test. Dette test baserer sig på sitution 3 fra tidligere hvor O11 følger en hypergeometrisk fordeling. P-værdien er summen af sandsynligheder for tabeller, der selv har en sandsynlighed, der er lig eller mindre den for den observerede tabel.

Fishers eksakte test Data: Fordelingen af x2-teststørrelsen under H0. 12 6 5 10 Data: Fordelingen af x2-teststørrelsen under H0. Sort streg: Sædvanlige kritiske værdi. Rød streg: X2-teststørrelsen for data. Bemærk: Forventede værdier er alle mindst 5. Med sædvanligt test ville det effektive signifikansniveau være 1,56%!

Fishers eksakte test i R > fisher.test(tabel) Fisher's Exact Test for Count Data data: tabel p-value = 0.08441 alternative hypothesis: true odds ratio is not equal to 1 ... > chisq.test(tabel, correct=FALSE) Pearson's Chi-squared test data: tabel X-squared = 2.4275, df = 1, p-value = 0.05642

En lidt større tabel Spørgsmål: Er der sammenhæng mellem køn og den måde man stemmer på? To variable: Køn: Mand / kvinde Partiforhold: Demokrat/ Uafhængig / Republikaner Vi er interesserede i fordelingen af stemmer, ikke de absolutte antal.

Relative fordeling Tabel over stemme fordelingen Stemme- fordelingen blandt: Kvinder: Mænd: Alle: Vi ser at stemmefordelingen er forskellig Er forskellen statistisk signifikant?

c2-test vha. P-værdi P-værdien er sandsynligheden for mere kritiske værdier, hvis H0 er sand P-værdien findes. fx vha. software c2 , df = (r – 1)(c – 1) P-værdien c2 Teststørrelsen, fx c2 = 16.2

Frihedsgrader Hvorfor har en 2x3 tabel 2 frihedsgrader? Antag vi kender alle række- og søjletotaler. Hvis vi kender antallet i bare to celler, så kan vi finde resten af antallene. Vi har frihed til at vælge to antal – derefter er resten givet! Partiforhold Demokrat Uafhængig Republikaner Total Kvinde 573 516 - 1511 Mand 1260 959 991 821 2711

Residual: Motivation c2-testet kan afsløre, at data passer dårligt med nul-hypotesen om statistisk uafhængighed. c2-testet siger intet om hvordan data passer dårligt. Det kunne fx være fordi: Et lille antal celler afviger meget. Et stort antal celler afviger lidt. Et residual siger noget om, hvor meget den enkelte celle afviger fra det forventede.

Residual Et (råt) residual for en celle er forskellen mellem Oi og Ei. Et standardiseret residual for en celle er Her er se standardfejlen, hvis H0 er sand. Dvs. det standardiserede residual måler antal se som forskellen mellem Oi og Ei afviger fra 0. z ligger omkring 0 med en standardafvigelse på 1. For store stikprøver er z ca. normalfordelt.

Residual: Eksempel For cellen ’Kvinde’ og ’Demokrat’ har vi Søjleandel: 1511/2771 = 0.545 Rækkeandel: 959/2771 = 0.346

Residual: Eksempel fortsat Da z er cirka normalfordelt med middelværdi 0 og standardafvigelse 1, så er 4.0 ret ekstremt. I SPSS vælges ’Adjusted Standardized’ under ’Residuals’ Det ses at det specielt er blandt demokrater, at afvigelsen mellem forventede og observerede værdier er stor.

Stadardiserede residualer i R > tabel = as.table(matrix(c(573,516,422,386,475,399),2,3, byrow=TRUE)) > tabel A B C A 573 516 422 B 386 475 399 > chisq.test(tabel)$stdres A B C A 4.015090 -1.940777 -2.145867 B -4.015090 1.940777 2.145867

Endnu en anvendelse af c2-testet Indkomstfordelingen for personer over 15 år i 2007 ifølge Danmark Statistik. I en markedsanalyse har vi spurgt 1000 personer i det lokale supermarked om deres mening om 3D-fjernsyn. Vi er nu kommet i tvivl om gruppen af adspurgte er repræsentativ. NB: Tåbelig måde at indsamle data på… I = indkomst i 1000kr I<50 50≤I <100 100≤I <150 150≤I <200 200≤I <300 300≤I <400 400≤I <500 500≤I % af befolkningen 6.4 9.3 17.8 12.3 24.3 18.0 6.6 5.3

Repræsentativ stikprøve? Observerede antal (fra data) Forventede antal (baseret på Danmarks Statistik) Igen måler vi afstanden vha. I = indkomst i 1000kr I<50 50≤I <100 100≤I <150 150≤I <200 200≤I <300 300≤I <400 400≤I <500 500≤I Antal i stikprøven 98 88 199 136 210 179 52 38 I = indkomst i 1000kr I<50 50≤I <100 100≤I <150 150≤I <200 200≤I <300 300≤I <400 400≤I <500 500≤I Antal i stikprøven 64 93 178 123 243 180 66 53 Den kritiske værdi er 14,07

Test i R obs = c(98,88,199,136,210,179,52,38) p = c(0.064,0.093,0.178,0.123,0.243,0.180,0.066,0.053) chisq.test(x=obs,p=p) Chi-squared test for given probabilities data: obs X-squared = 33.8848, df = 7, p-value = 1.81e-05 Da p-værdi < 0.05 afviser vi H0. Kritisk værdi: > qchisq(0.95,df=7) [1] 14.06714

Goodness-of-Fit Resultat Da 33,87 > 14,07 så er afvigelsen for stor! Vi konkluderer derfor, at stikprøven ikke er repræsentativ. Samme undersøgelse, men i en ny butik: Er dette en repræsentativ stikprøve? I = indkomst i 1000kr I<50 50≤I <100 100≤I <150 150≤I <200 200≤I <300 300≤I <400 400≤I <500 500≤I Antal i stikprøven 60 99 190 116 248 173 69 45

Testen Teststørrelsen er c2-fordelt med 7 frihedsgrader (antal grupper minus en). Hvis vi vælger et signifikansniveau på 5%, så er den kritiske værdi 14.07. Da vi har c2 = 33.87 > 14.07, så afviser vi påstanden om at stikprøven er repræsentativ. Hvis vi ikke havde afvist påstanden, så er det ikke det samme som, at stikprøven er repræsentativ… Under alle omstændigheder har vi kun forholdt os til om indkomstfordelingen matcher befolkningens.

Pointe Vi kan ikke bevise, at en stikprøve er repræsentativ. Vi kan ”bevise”, at stikprøven ikke er repræsentativ.

Hvorfor er c2-testen c2-fordelt? Goodness-of-fit for k=2 kategorier. Antag vi har n total antal observationer n1 antal observationer i kategori 1. p forventede andel observationer i kategori 1. I dette tilfælde er Goodness-of-fit teststørrelsen:

Hvorfor er c2-testen c2-fordelt? Bemærk, at n1 ~ B(n,p), dvs. E[n1] = np og Var[n1] = np(1-p) CLT giver Dvs.

Hva’ så hvis Ei < 5? Antag p1 = 0.01, p2 = 0.99 og n = 100 Histogram for X2. Sande pi’er anvendt.

Asymptotik Chi-i-anden testen følger asymptotisk en c2-fordeling. Dvs. jo større n er, mere nærmer fordelingen sig en c2-fordeling. Eksempel: Goodness-of-fit test med k=2 kategorier og p1 = p2 = ½. For n=16 ser fordelingen af X2 Kritisk værdi 3.84 P(x2≥3.84) = 0.076 Dvs. signifikansniveauet er 7.6% og ikke 5%. Bemærk: Ei = 8.

c2-test - generelt setup n observationer inddelt i k kategorier pi er sandsynligheden for i’te kategori pi er kendt Oi er det observerede antal i i’te kategori Ei = npi er det forventede antal observationer i i’te kategori. c2- teststørrelsen er X2 er asymptotisk c2- teststørrelsen med k-1 frihedsgrader. Ei ≥ 5 for alle i er nok til at ”sikre asymptotikken”.

Goodness-of-fit for parametrisk fordeling Antag X1,…,Xn er uafhængige observationer fra en fordeling, der er specificeret ved s parametre q1,q2,…,qs. Antag Xi’erne kan inddeles i k kategorier. Lad pj(q) betegne sandsynligheden for at Xi havner i j’te kategori. Hvis q er kendt er Ej = n pj(q) og X2 følger en c2-fordeling med k-1 frihedsgrader.

Goodness-of-fit - ukendt q Setup kan betragtes som et multinomial-eksperiment, med sandsynligheder p1(q),…, pk(q) Antag er maksimum likelihood estimater, opnået under multinomial-fordelingen. Antag Ei = npi( ) I dette tilfælde er X2 asymptotisk c2-fordelt med k-s-1 frihedsgrader. Estimeres q ud fra den oprindelige likelihood gælder c2k-s-1 ≤sd X2 ≤sd c2k-1 ,hvor ≤sd betyder ”stokastisk domineret” (A. Dasgupta, Asymptotic Theory of Statistics and Probability, 2008)

Eksempel: Hardy-Weinberg ligevægt Observationerne kan inddeles i k=3 kategorier. Med n observationer er de forventede antal E(AA) = n p2 E(Aa) = n 2p(1-p) E(aa) = n (1-p)2 p er ukendt. Et estimat af p udfra multinomial fordelingen er Antal frihedsgrader er således k-s-1 = 3-1-1 = 1 (og ikke 2)

Hardy-Weinberg Antag p = 0.95 og n = 1500 Begge histogrammer: Fordelingen af X2 (10,000 gentagelser) Øverst: Ei udregnet vha. sande p. Nederst: Ei udregnet vha. estimeret p. Effektivt sig.niv. med df=2 er 1,4% (ikke 5%)

Test af uafhængighed: Frihedsgrader Ved test af uafhængighed er der k = rc kategorier. Beregningen af de forventede værdier involvere estimation af (c-1) + (r-1) marginale sandsynligheder. Antal frihedsgrader er derfor k – s – 1 = rc – (r – 1) – (c – 1) – 1 = (r-1)(c-1).

Repetition: Normalfordelingen Karakteriseret ved middelværdi m og standardafvigelse s. Notation: y ~ N(m,s2) betyder at y er kontinuert stokastisk variabel, der er normalfordelt med middelværdi m og varians s2. Tæthedsfunktionen for normalfordelingen er Egenskaber: Symmetrisk omkring m f(y) > 0 for alle y. 95% m m - 1.96s m + 1.96s

Goodness-of-fit for normalfordelingen Setup: X1,…,Xn stikprøve fra normalfordeling m. ukendt m og s2. Antag og er estimater af m og s2. Vi kan inddele R i k intervaller så pi = 1/k. Her gælder c2k-3 ≤sd X2 ≤sd c2k-1

Goodness-of-fit for normalfordelingen Monte Carlo simulation af x2-teststørrelsen med k=6: Bemærk at den empiriske fordeling ligger mellem to c2-fordelinger med hhv. 3 og 5 frihedsgrader.

Parametriske test c2-testene vi har set på indtil nu er eksempler på såkaldt ikke-parametrisk test. Testene er ikke-parametriske, da de groft sagt ikke omhandler parametre, men kun egenskaber (enten uafhængighed eller goodness-of-fit). I det følgende vil vi betragte et parametrisk problem med tilhørende parametriske test.

Parametriske hypoteser Videnskabelige hypotese Vi påstår at havenisser i gennemsnit tjener mere end 42 kroner i timen. Data Vi har spurgt 36 havenisser om deres timeløn. Gennemsnittet var x = 43,2. Antagelser Lønningerne er normalfordelte og uafhængige Standardafvigelsen er kendt, og s = 3,2 m betegner (den sande ukendte) populationsmiddelværdi.

Kunstige havenisser Skab et ”kunstigt” normalfordelt data-sæt der passer med x = 43,2 og s=3.6. > x = rnorm(36) > x = (x-mean(x))*3.6/sd(x)+43.2 > mean(x) [1] 43.2 > sd(x) [1] 3.6 hist(x) Ser jo meget normalfordelt ud…?

Hypoteser og Teststørrelse Nul-hypotesen H0: m ≤ 42 (alt. notation H0: m = 42 ) Alternativ-hypotesen H1: m > 42 Teststørrelse Stikprøvegennemsnittet: Al tvivl skal komme H0 til gode, så vi antager at m = 42. Dvs. under H0 har vi:

Afgørelse vha. P-værdi Hypoteser: H0: m ≤ 42 vs H1: m > 42 Dvs. under H0 har vi: Jo større , jo mere kritisk for H0. Dvs. P-værdi = P( ≥ 43,2) = 0.0122. (Unuanceret) konklusion: Vi afviser H0 da P-værdi < 0.05 P-værdi i R: > 1-pnorm(43.2,mean=42,sd=3.2/sqrt(36)) [1] 0.01222447 P-værdi 42 43,2

Afgørelse vha. kritisk værdi Beslutningsregel: Vi afviser H0, hvis er større end den kritiske værdi. Vi ønsker et signifikansniveau på 5%. Kritisk værdi finder vi vha. R > qnorm(0.95,mean=42,sd=3.2/6) [1] 42.87726 Konklusion Da = 43,2 > 42,9 afviser vi H0. a = 5% 42 42,9

Valg af alternativ-hypotese Videnskabelige hypotese Vi påstår at havenisser i gennemsnit tjener mere end 42 kroner i timen. Hvorfor vælger vi ikke? H0: m ≥ 42 vs H1: m < 42 P-værdi P( < 43,2 ) = 0.988 Konklusion: Vi kan ikke afvise H0… P-værdi 42 43,2

Pointer Stærkere konklusion: Vi afviser H0 Svag konklusion: Vi kan ikke kunne afvise H0. Det styrede valget af alternativ-hypotese før. Vi har lystigt regnet på ting og sager under antagelse af, at H0 er sand. Hvorfor ikke H1? Det er typisk ikke muligt, da H1 er mindre ”skarp”… HUSK: Vi skal kontrollere at antagelserne er opfyldt Her: Er stikprøven normalfordelt.

En tilbagevendende svaghed H0-fordelinegn Antag sandheden er m = 42.1 H0: m = 42 vs H1: m ≠ 42 I virkeligheden vil gennemsnit falde her: Vi vil med mere end 95% ssh afvise H0 hvis Dvs. hvis 42 Afviser H0 Afviser H0 42 42.1 Afviser H0

Pointer Med nok data ender man næsten sikkert med at afvise H0. Afviser vi H0 er vi ret sikre på, at H0 er forkert. Men det er ikke det samme som, at data afvigelse fra H0 har nogen praktisk betydning.

Stikprøve-gennemsnittet Lad de stokastiske variable X1, X2,…,Xn være en tilfældig stikprøve fra en population m. middelværdi m og varians s2. Stikprøve-gennemsnittet af disse SV er er et punktestimat for m. Den forventede værdi og varians for stikprøve-gennemsnittet er og Ubiased / central / middelret estimator Konsistent estimator

Konfidensinterval for middelværdien - Opvarmning Da gælder følgende: Dvs. med 95% sandsynlighed ligger (den stokastiske variabel) X i det faste interval . Det kan omskrives til Dvs. det stokastiske interval indeholder med 95% sandsynlighed det faste tal m.

Konfidens-interval for middelværdi 0,95 0,025 0,025 Approksimativt 95% af stikprøve middelværdierne kan forventes at falde indenfor intervallet Omvendt, cirka 2.5% kan forventes at være under og 2.5% kan forventes at være over . Så 5% kan forventes at være udenfor intervallet. . 2.5% falder nedenfor intervallet 2.5% falder over intervallet 95% falder indenfor intervallet

Konfidens-interval for middelværdi 0,95 0,025 Approksimativt 95% af intervallerne omkring stikprøve-middelværdien kan forventes at indeholde den faktiske værdi af populations middelværdien, . *5% af sådanne intervaller omkring stikprøve middelværdien kan forventes ikke at inkludere den faktiske værdi af populations middelværdien. 0,025 * * 95% falder indenfor intervallet

Konfidensinterval for middelværdien - når X er normal-fordelt eller stikprøven er stor Vi har altså Hvis vi erstatter estimatoren X (”et tilfældigt tal”) med estimatet x (”et fast tal”) får vi konfidensintervallet: For en stikprøve der enten er stor eller fra en normal-population er et 95% konfidensinterval for middelværdien m når variansen er kendt Bemærk at estimatoren er er ersattet med estimatet .

Hypotesetest og konfidensinterval Hypoteser H0: m = m0 vs H1: m ≠ m0 Teststørrelse Kritiske værdier: m0 ± 1.96 s /√n Konsekvens: Hvis Þ Ej afvis H0 ß Hvis Þ Ej afvis H0

Konfidensinterval for andele Antal x~binom(n,p) Dvs. x er antal succeser i n uafhængige forsøg. er et estimat af p. Der gælder (jf. CLT) Et tilnærmet 95% konfindensinterval for p: ca

Monte Carlo p-værdi Simuler data under H0 og udregn teststørrelse n gange. Lad x være antal teststørrelser der er mere ekstreme end den observerede. er et estimat af p-værdien. Et tilnærmet 95% konfindensinterval for p-værdien: Afvigelsen kaldes også Monte Carlo fejlen.

Monte Carlo stikprøvestørrelse Konfidensintervallet er hvor fejlmarginen er Isoler n giver Hvis D = 0.001 og p = 0.05 fås En fejlmargin på 1 promille kræver næsten 200.000 simulationer.

Students t fordeling Antag populationen er normalfordelt med middelværdi m og varians s2. Gammel viden: Hvis vi kender variansen s2, så kan vi bruge: Ny viden: Hvis vi ikke kender variansen s2, så kan vi erstatte s2 med stikprøve-variansen s2: ”følger en t-fordeling med n-1 frihedsgrader”.

Students t fordeling: definition Lad Z~N(0,1) - standard normalfordeling X2 ~ c2(k) - c2-fordeling med k frihedsgrader. Z og X2 er uafhængige Så følger T en t-fordeling med k frihedsgrader.

Students t fordeling: egenskaber t fordelingen er klokkeformet og symmetrisk og defineret ved antal frihedsgrader (df). Middelværdien er altid lig 0. Variansen af t er større end 1, men går mod 1, når antallet af frihedsgrader vokser. Standard normal t, df=20 t, df=10   t fordelingen er fladere og har ”tykkere haler” end en standard normal fordelingen. t fordelingen går mod standard normal fordelingen nå antallet af frihedsgrader vokser.

Konfidensinterval for  når  er ukendt - t-fordelingen Defintion: Et (1-a)100% konfidensinterval for m når s er ukendt (og man antager en normalfordelt population): hvor er værdien i t-fordelingen med n-1 frihedsgraders, hvor sandsynligheden for at t er højere end denne værdi, er a. a / 2 ta/2

t-test Hypoteser H0: m = m0 vs H1: m ≠ m0 Teststørrelse se = s/√n er standardfejlen. Kritiske værdier: ± ta/2

t-test i R t.test(x,mu=42,alternative=”two.sided”) One Sample t-test data: x t = 2, df = 35, p-value = 0.05331 alternative hypothesis: true mean is not equal to 42 95 percent confidence interval: 41.98194 44.41806 sample estimates: mean of x 43.2

Parametriske vs Ikke-parametriske metoder Udgangspunktet er en statistisk model. Hypoteser omhandler parametrene i modellen. Undersøgelsen bygger på modelantagelser og er ”en præcis løsning, til et approksimeret problem”. Ikke-parametriske metoder Undersøgelsen bygger ikke på antagelser om specielle fordelinger og er ”en approksimeret løsning til et præcist problem”. Har lavere styrke en parametriske metoder.

Ikke normalfordelt stikprøve Udgangspunkt: Stikprøve x1,..,xn fra én (symmetrisk) population. Alternativ til t-test af H0: m=m0. Lad m betegne medianen i populationen. Hypoteser Antagelser: Fordeling er symmetrisk. Observationerne er indbyrdes uafhængige Observationerne er skala variable H0: m = m0 HA: m ≠m0

Ranks Mange ikke-parametriske test benytter sig af ranks. Mindste tal tildeles rank 1, næstmindste rank 2 osv. Hvis flere observationer tager samme værdi tildeles de et gennemsnitsrank. Eksempel: Antag vi har følgende observ.: (fodtegn er rank) 31 42 7? 7? 105 146 157 De to 7-taller ”burde” have fået rank 3 og 4 Derfor får de rank (3+4)/2 = 3.5 Resultat 31 42 73.5 73.5 105 146 157

Wilcoxon Signed-rank Test Beregning: Udregn afvigelser fra m0: di = xi - m0. Find ranks for |di| (den absolutte/numeriske værdi af di). Dvs. mindste afvigelse får rank 1, næstmindste afvigelse får rank 2 osv. Find sum af ranks af |di| hvor di > 0 - betegnes T + sum af ranks af |di| hvor di < 0 - betegnes T - Wilcoxon signed-rank teststørrelse: T = T + Store og små værdier af T er kritiske.

Wilcoxon Signed-rank: Store stikprøver Når n er større end 10 kan man anvende en normalfordelingsapproksimation. Under H0 gælder der for teststørrelsen T: Vi kan nu standardisere Under H0 gælder z ~N(0,1), dvs. z følger en standard normalfordeling.

Eksempel Data: Modtagne opkald i løbet af en time. xi di |di| Rank di > 0 di < 0 151 2 1 144 -5 5 123 -26 26 13 178 29 15 15.0 105 -44 44 23 112 -37 37 20 140 -9 9 4 167 18 10 177 28 14 185 36 19 129 -20 11 160 6 110 -39 39 21 170 12 198 49 25 165 16 8 109 -40 40 22 118 -31 31 16.5 155 3 102 -47 47 24 164 7 180 139 -10 166 17 182 33 163.5 161.5 Data: Modtagne opkald i løbet af en time. Vi observeret data for 25 timer. Hypotese: Medianen er 149 H0: m = 149 vs HA: m ≠ 149 Sum af positive ranks T+ = 163.5

Eksempel - fortsat H0: m = 149 vs HA: m ≠ 149 Sum af positive ranks T+ = 163.5 Mellemregninger Teststørresle Konklusion Da Z = 0.027 < 1.96 kan vi ikke afvise H0. p-værdi = 0.979.

Wilcoxon Signed-rank i R > wilcox.test(messages$Messages, mu=149) Wilcoxon signed rank test with continuity correction data: messages$Messages V = 163.5, p-value = 0.9893 alternative hypothesis: true location is not equal to 149 Samme resultat som før.

Mere avancerede test I det følgende vil vi kort beskæftige os med Simpel lineær regression Til analyse af en lineær sammenhæng mellem to variable Variansanalyse Til at undersøge om middelværdien er den samme i et antal grupper.

Kriminalitet og uddannelse i Florida: Er der en sammenhæng? crime = read.table("fl-crime.csv", header=TRUE,sep=";",dec=",") plot(crime$C ~ crime$HS) Plot af ”kriminalitet” (y) mod ”Andel high school” (x): Er der en sammenhæng?

Scatterplot Et scatterplot er et plot af to variable: Y Et scatterplot er et plot af to variable: x : forklarende variabel (percent high school) y : respons variabel (crime rate) For den i’te observation har vi xi (crime rate for i’te distrikt) yi (% high school for i’te distrikt) Data: (x1,y1), (x2,y2),…, (xn,yn) (xi,yi) yi x xi

Forventet respons: En ret linje Den rette linje a + bx beskriver den forventede (dvs. middel) respons: E[y] = a + bx Eksempel: E[y] = 210 + 2,5x Fortolkning: Antag x = 40 (% high school), så er den forventede crime rate 210 + 2,5·40 = 310 Hvis x øges med 1, så øges den forventede værdi af y med 2,5. y UK: Expected E[y] = a + bx b 1 a x Hvis x = 0 , så er den forventede værdi af y = 210.

Fejlleddet y De enkelte datapunkter (xi,yi) ligger ikke præcist på regressionslinjen. Afvigelsen mellem punkt og linjen betegnes fejlleddet ei. Regressionsmodel: yi = a + bxi+ ei Bemærk: n fejlled e1, e2, ..., en. (xi,yi) a + bx yi ei x xi Flere detaljer og antagelser på næste slide…

Simpel lineær regressionsmodel Y - den afhængige variabel. X - den uafhængige variabel – faste β - det græske bogstav ”beta” β0 - skæringspunkt med y-aksen β1 - hældningskoefficient iid - UK: independent, identically distributed = uafhængig, identisk fordelte ε - det græske bogstav ”epsilon” εi - det eneste stokastiske element i modellen

Lineær regressionsmodel: Figur yi = a + bxi+ ei Om fejlledene ei antager vi: Normalfordelt Middelværdi nul Konstant standard-afvigelse s Dvs. punkterne ligger usystematisk spredt omkring en ret linje, hvor variationen er konstant. Y Fordelingen af yi omkring regressionslinjen. i.i.d. normalfordelte fejlled x1 x3 x2 x4 x5 X Kontinuert forklarende variabel x

Visuelt check af antagelser Lav et scatter plot y y √ % y √ % y x

En tilnærmet linje En estimeret regressionslinje er givet ved: Her er y En estimeret regressionslinje er givet ved: Her er a et estimat af a b et estimat af b ”y hat” er estimat af E(y) Afstanden fra punktet til den estimerede regressionslinje kaldes residualet ei = yi - . (xi,yi) E[y] = a + bx = a + bx yi ei = a + bx x xi

Mindste kvadraters metode y Summen af de kvadrede residualer betegnes: UK: Sum of Squared Errors. SSE kan skrives som (xi,yi) E[y] = a + bx yi ei = a + bx x xi Vi vælger a og b, så SSE er mindst mulig. Dette kaldes mindste kvadraters metode.

Forklaret og uforklaret afvigelse yi’s afvigelse fra kan opdeles i to: y Uforklaret afvigelse Totale afvigelse Forklaret afvigelse x

Multipel determinations koefficient Den totale variation i y’erne: Den uforklarede del af variationen i y’erne: Den forklarede del af variationen i y’erne: (Total Sum of Squares) (Sum of Squared Errors) (Sum of Squars for Regression)

Multipel determinations koefficient Der gælder Dvs. Forklarede var. = Uforklarede var. + Forklarede var. Determinationskoefficienten Fortolkning: Andelen af den totale variation, der er forklaret.

Hypotesetest af b Nul-hypoteser: H0: b = 0 Alternativ-hypoteser: Ha: b  0 Ha: b > 0 Ha: b < 0 Teststørrelse Hvis H0 er sand, så følger t en t-fordeling med df=n-2 frihedsgrader

Ikke-lineær sammenhæng Fortolkning af H0: β = 0 Er der en lineær sammenhæng mellem X og Y? H0: β1 = 0 ingen lineær sammenhæng Ha: β1 ≠ 0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

Simpel lineær regression i R model = lm(C~HS,data=crime) Summary(mode) Call: lm(formula = C ~ HS, data = crime) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -51.8018 25.1447 -2.060 0.043588 * HS 1.5010 0.3611 4.156 0.000101 *** Konklusion: Andel af folk der har gennemført high school (HS) påvirker omfanget af kriminalitet (C).

Regressionslinje i SPSS plot(crime$C~crime$HS) abline(model)

Multipel lineær regression Vi tilføjer graden af urbanisering: model2 = lm(C ~ HS + U, data = crime) summary(model2) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 56.8006 29.3996 1.932 0.058 . HS -0.5413 0.4906 -1.103 0.274 U 0.6734 0.1276 5.279 1.82e-06 *** Umiddelbart er det kun urbaniseringen og ikke uddannelse, der har en betydning for kriminaliteten.

Proxy High school er en proxy (”erstatnings variabel”) for urbanisering: plot(crime$HS ~ crime$U) Crime rate Urbanization Education

Variansanalyse (ANOVA ) Analysis of Variance Setup: Kun kategoriske forklarende variable Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X1: Shoppestil (Shopping style - style) Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O) Spørgsmål: Påvirker ’style’ forbruget?

Grafisk overblik plot(grocery$amtspent~grocery$style)

Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske style variabel omkodes til dummy variable: To binære dummy variable: XB og XW Bemærk: k kategorier omkodes til k-1 dummy variable Model: Style XB XW Biweekly 1 Weekly Often

Hypotesen Model: E[Y | Style = B] = a + bB E[Y | Style = W] = a + bW E[Y | Style = O] = a Bemærk: bB og bW angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori. Hypotese: Middelværdien er den samme for alle styles: H0: bB = bW = 0 H1: bB  0 og/eller bW  0 Afgøres vha. et F-test.

ANOVA i R model3 = lm(amtspent~factor(style),data=shopping) summary(model3) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 378.52 11.73 32.279 <2e-16 *** styleWeekly 26.03 13.45 1.936 0.0537 . styleOften 28.25 17.34 1.629 0.1042 anova(model3) Analysis of Variance Table Response: amtspent Df Sum Sq Mean Sq F value Pr(>F) style 2 39579 19789.4 2.0558 0.1295 Residuals 348 3349883 9626.1

Bayesiansk statistik Indtil nu har vi tænkt på sandsynligheder som andelen af succeser ”i det lange løb”: #succeser / #forsøg → P(succes). I bayesian statistik er sandsynligehder subjektive! Eksempler Sandsynligheden for at to virksomheder fusionerer Sandsynligheden for at en aktiekurs stiger Sandsynligheden for at det regner i morgen Typisk vil vi udtale os om en parameter q, fx m, s2 or p. Hvordan gøres det med subjektive sandsynligheder?

Bayesiansk statistik: Prior Bayesianske ide: Be beskriver vores “viden” om parameteren q vha. tæthedsfunktion p(q). Denne er kendt som a priori foirdelingen (eller bare ‘prioren’) – idet den beskriver situationen inden vi har set data. Eksempel: Antag q er sandsynligheden for succes (0<q<1). Prioren beskriver de værdier vi tror q har:

Bayesian statistik: Posterior Lad x betegne vores data. Den betingede fordeing af q givet x betegnes posterior fordelingen: Her betegner f(x|q) datas fordeling betinget af q. Eksempel: Lad x betegne antal succeser i n forsøg. Betinget af q, følger x en binomialfordeling:

Bayesiansk statistik Vi observerer n = 100 forsøg med x = 30 successer, dvs. x/n = 0.3 Posterioren – vores ”viden” efter at have set data: Gråt område: A priori fordelingen Linje: A posteriori fordelingen Bemærk at de tre a posteriori fordelinger ligner hinanden.

Bayesiansk statistik: Matematikken bag Som prior har vi brug en såkaldt beta-fordeling med parametre a > 0 and b > 0: Posterioren er da en beta fordeling med parametre a+x og b+n-x.