Hjemmeside : http://ak.aau.dk/jfj Statistiske test Silkeborg efteråret 2009 Jens Friis, AAU Hjemmeside : http://ak.aau.dk/jfj.

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Dummyvariabler 13. oktober 2006
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Anvendt Statistik Lektion 4
Statistik og sandsynlighedsregning
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Matematikseminar foråret 2009
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Statistik og sandsynlighedsregning
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Signifikanstest ved (en eller) to stikprøver
Man siger at X er binomialfordelt med
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Sandsynligheder Udfald og hændelser Sandsynligheder Additionsreglen
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik for geografer
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 7
Grundlæggende teoretisk statistik
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Bernoulli og binomial fordelingerne
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Grundlæggende teoretisk statistik
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Kvantitative metoder 2: F31 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Variansanalyse på normalfordelte observationer af Jens Friis.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 27. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Anvendt Statistik Lektion 6
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Hjemmeside : http://ak.aau.dk/jfj Statistiske test Silkeborg efteråret 2009 Jens Friis, AAU Hjemmeside : http://ak.aau.dk/jfj

Kontinuerte fordelinger Definition: Tæthedsfunktion En sandsynlighedstæthedsfunktion på R er en integrabel funktion f : R→[0;∞[ hvor =1 Definition: Kontinuert fordeling En kontinuert sandsynlighedsfordeling er en sandsynlighedsfordeling, som har en sandsynlighedstæthedsfunktion f : funktionen kaldes fordelingsfunktionen for en kontinuert fordeling på R Definition: middelværdi ,varians og spredning Lad X være en stokastisk variabel med tæthedfunktion f(x) Middelværdi : μ=E(X)= Varians : σ2=E((X-μ)2)= Spredningen er σ

Normalfordelingen er det klassiske eksempel på en kontinuert fordeling. Her er tæthedsfunktionen givet ved Middelværdien er μ og spredningen σ. Den stokastiske variabel med denne tæthedsfunktion siges at være N(μ, σ2) –fordelt. Den normalfordelte stokastiske variabel, som har middelværdi 0 og varians 1, kaldes sædvanligvis U, og den tilhørende tæt- hedsfunktion for φ , dvs. at Den tilsvarende fordelingsfunktion kaldes for Ф, dvs. at

Man kan derfor klare sig med kendskab til værdier af Ф, som er Der gælder følgende : Man kan derfor klare sig med kendskab til værdier af Ф, som er tabellagt og indlagt i de fleste computersystemer. Undersøgelse af om et observationssæt kan betragtes som Normalfordelt: Apgar- fødselsvægt (SPSS) eller BMI – Geogear (SPSS)

Man kunne også have indført normalfordelingen således : Definition En stokastisk variabel U siges at være u-fordelt eller N(0 , 1) -fordelt, hvis tæthedsfunktionen for U er givet ved Sætning: E(U) = 0 og V(x) = 1 Definition En stokastisk variabel X = μ + σU, hvor μ R og σ R+ , siges at være N(μ , σ2 ) -fordelt Sætning: E(X) = μ og V(X) = σ2

Sætning Den N(μ , σ2 ) –fordelte stokastiske variabel X har tæthedsfunktionen Bevis:

Hvorfor er normalfordelingen interessent? Ja, det er den, fordi gennemsnittet af næsten alle målinger tilnærmelsesvis er normalfordelt. Mere præcist, så gælder den centrale grænseværdisætning : Man kan vise, at hvis X er b(n,p)-fordelt, er X tilnærmelsesvis normalfordelt N(µ, σ2 ) for n→ ∞ , hvor µ = np og σ2 = np(1-p) . Hvad var det nu lige binomialfordelingen er for noget ?

Binomialfordelingen Et basiseksperiment beskrives af et udfaldsrum E med to udfald succes (s) og fiasko (f), dvs. E={s,f}, hvor P(s)=p og P(f)=1-p. Basiseksperimemtet gentages n gange uafhængigt af hinanden. Hvis X betegner antal succes i de n gentagelser gælder der Sætning: E(X)=np ; V(X)=np(1-p) Eks. 5 uafhængige kast med en terning. X er antal 6’ere. q 1 2 3 4 5 P(X=q) 0,402 0,462 0,161 0,032 0,003 0,000 Se også SPSS: poisBin6indlagte.sav

Heraf følger , at hvis X binomialfordelt b(n, p) er tilnærmelsesvis N( 0, 1)-fordelt Lad os nu endelig komme til χ2 -fordelingen. Definition Lad X1, X2, ……Xn er indbyrdes uafhængige N(0, 1) –fordelte stokastiske variable. Summen siges at være χ2- fordelt med n frihedsgrader. Sætning En stokastisk variabel, som er χ2- fordelt med n frihedsgrader, har tæthedsfunktionen , hvor

Antag at X ̴ b(p, n) ̴ ≈ N(0, 1) ̴ ≈ χ2 , f = 1 Hvis man har en stikprøve, som er binomialfordelt (fx stikprøve med svarmulighederne ja/nej kan man benytte et χ2 -test, hvis man ønsker at teste hypotesen Ho : p = p0 . Den alternative hypotese er H1 : p ≠ p0 Antal ja Antal nej ialt observeret x n-x n forventet np0 n(1-p0) som tilnærmelsesvis er χ2 –fordelt med 1 frihedsgrad. Dvs reglen er, at man udregner Det er klart, at store værdier er kritiske for accept af hypotesen.

Accept af hypoteser Man arbejder med et såkaldt signifikansniveau, som sædvanligvis er 5% eller 1%. Signifikansniveauet er sandsynligheden for at forkaste en rigtig hypotese. Man kan da begå to fejl : type 1 : forkaste en rigtig hypotese type 2: acceptere en hypotese selv om den er forkert For at kunne bedømme et tests styrke skal man studere sandsynligheden for at begå fejl af type 2. Det er ofte ret kompliceret, og indgår normalt ikke i indledende statistik- kurser.

Eksempel på χ2 -test med 1 frihedsgrad I en meningsmåling har man spurgt 1500 vælgere om de vil stemme på Socialdemokratiet, hvis der var valg nu. Resultatet blev Antal ja Antal nej Ialt 465 1035 1500 Afviger dette resultat signifikant fra hypotesen, at 1/3 vil stemme på partiet? Formuleret mere matematisk: X betegner antal stemmer på partiet og modellen er, at X ̴ b(1500, p) og nulhypotesen er H0 : p = 1/3 . H1 : p ≠ 1/3 Følgende tabel udregnes : Antal ja Antal nej I alt observeret 465 1035 1500 forventet 500 1000 Da 95%’s fraktilen er 3,84 accepteres hypotesen på et signifikansniveau på 5% .

Multinomialfordelingen X = (X1, X2, ……….Xk) siges, at være multinomialfordelt b(n,p1,p2….pk) , hvis p1+p2+…..pk=1 og , hvor x1+x2+…..xk=n På samme måde som ved binomialfordelingen kan man se på et basiseksperiment som gentages n gange uafhængigt af hinanden. I stedet for succes eller fiasko er der k svarmuligheder. Dvs. at X1 er antal svar på kategori 1 X2 ” - - - - - - - - - - - - - - ” 2 . . Xk ”- - - - - - - - - - - - - - -” k

Som ved binomialfordelingen kan man teste, at de enkelte sandsynlighedsparametre antager givne værdier, dvs. at modellen er X=(X1, X2, ……….Xk) er multinomialfordelt b(n,p1,p2….pk) , og nulhypotesen er H0 : p1 = p01, p2 = p02,……..pk = p0k og H1 : p1 ≠ p01, p2 ≠ p02,……..pk ≠ p0k Igen kan man lave et χ2 - test , her med k-1 frihedsgrader. Igen er det En tommelfingerregel er, at for at anvende testet skal alle forventede værdier være større end 5.

Eksempel : Mendel avlede bønner, som gav følgende udbytte form\ farve gule grønne Runde 315 108 kantede 101 32 Da de stammede fra en krydsning af dobbelte heterozygotiske bønner, skulle udbyttet være i forholdet 9 : 3 : 3 : 1. Som model kan anvendes en multinomialfordeling b(556, p1, p2, p3, p4) . Nulhypotesen er H0 : Følgende tabel udregnes : i 1 2 3 4 sum observeret 315 101 108 32 556 forventet 312,75 104,25 34,75

Eksempel fortsat: χ2 – testet med 3 frihedsgrader udregnes : Da 95%’s fraktilen er 7,81 accepteres hypotesen på et signifikansniveau på 5%.

Sammenligning af flere multinomialfordelinger eller test for uafhængighed Model : X1 = (X11, X12, ……….X1k) ̴ b(n1,p11,p12….p1k) X2 = (X21, X22, ……….X2k) ̴ b(n2,p21,p22….p2k) . Xm = (Xm1, Xm2, ……..Xm2) ̴ b(nm,pm1,pm2….pmk) Nulpypotese : H0 : p11 = p21 = ….. = pm1 p12 = p22 =….. = pm2 . p1k = p2k = …. = pmk H1 : forskellige pr. kategori Som test anvendes igen : som er χ2 –fordelt med f = (m-1)(k-1) frihedsgrader . Også her bør de forventede værdier være større end 5.

Lad os lige se på en kontingenstabel over de observerede : i \ j 1 . . . j k sum x11 x1j x1k x1. . i xij xi. m xm1 xmj xmk xm. x.1 x.j x.k n=x.. Læg mærke til, at det forventede antal i celle (i,j) er Man udregner søjlefrekvens gange rækkefrekvens gange samlet antal, altså tester man uafhængighed af de to inddelingskreterier.

Eksempel : For mange år siden lavede Dansk Skakunion en læserundersøgelse for deres medlemsblad. Man spurgte bl.a. om Hvad foretrækker du? (sæt kryds) 1. at partierne bringes adskilt fra referater og nyheder 2. at partierne bringes sammen med referater og nyheder 3. ved ikke. Spillerne blev inddelt i spillerstyrke og resultatet blev: svar /styrke 1 2 3 sum 15 43 61 30 97 21 148 36 98 25 159 4 39 67 136 120 305 79 504

Hvis man vil teste om svarene er uafhængig af spillerstyrke er de fælles skøn over p’erne Tabellen med de forventede kan udregnes : svar styrke 1 2 3 sum 14,524 36,915 9,562 61 35,238 89,563 23,198 148 37,857 96,220 24,923 159 4 32,387 82,302 21,317 136 120 305 79 504 Idet Da χ2 = 14,98 og f=(4-1)(3-1)=6 og 95%’s fraktilen er 12,59 forkastes hypotesen Med et signifikansniveau på 5%

Eksempel : for en del år siden undersøgte man om flere gange straffede personer havde en én-ægget eller to-ægget tvillinge bror/søster. Resultatet blev : observeret kriminel ikke kriminel sum én ægget 10 3 13 to ægget 2 15 17 12 18 30 H0 : fordelingen på kriminel/ikke kriminel ed den samme for én- og to ægget. De forventede bliver forventet ikke kriminel sum én ægget 5,2 7,8 13 to ægget 6,8 10,2 17 12 18 30 Χ2 = 13,02 , f = (2-1)(2-1) = 1 . Da 95%’s fraktilen er 3,84 forkastes hypotesen med et signifikans på 5%. Da 99%’s fraktilen er 6,63 kan også forkaste på et signifikansniveau på 1%.

Hvorfor er der det antal frihedsgrader ? Ved hjælp af den såkaldte spaltningssætning kan man vise : Hvis X1, X2, X3 …….,Xn er N(0,1) - fordelte, og der k lineære bånd mellem dem er χ2 – fordelt med n - k frihedsgrader I tilfældet med en m x k tabel er der m∙k – k – m + 1 = (m – 1) (k – 1) frihedsgrader Beviser for denne sætning ligger langt ud over gymnasieniveau. Et sidste eksempel : rygning og apgar-tal : vha. SPSS

u-test ved normalfordelte observationer. Lad X1, X2, ……Xn er indbyrdes uafhængige N(μ, σ2) - fordelt stokastiske variable. Der gælder da, at er N(μ, , σ2/n) – fordelt . Har man derfor et observationssæt x1, x2, ……xn , som antages at være N(μ, σ2) – fordelt, hvor σ2 er kendt, kan hypotesen H0 : μ = μ0 med H1 : μ ≠ μ0 testes med teststørrelsen , som under H0 er N(0, 1) – fordelt. Acceptområder er mellem fraktilen og fraktilen, hvor er signifikansniveauet.

Nu er det sjældent, at man kender variansen i et observationssæt Nu er det sjældent, at man kender variansen i et observationssæt. Der er der oftest tale om et approksimativt u-test. Eks. I en meningsmåling har man spurgt 1500 vælgere om de vil stemme på Socialdemokratiet, hvis der var valg nu. Resultatet blev Antal ja Antal nej Ialt 465 1035 1500 Afviger dette resultat signifikant fra hypotesen, at 30% vil stemme på partiet? Formuleret mere matematisk: X betegner antal stemmer på partiet og modellen er, at X ̴ b(1500, p) og nulhypotesen er H0 : p = 0,30 . H1 : p ≠ 0,30 Vi ved at under H0 er X er approksimativt - fordelt. Teststørrelsen udregnes Da 97,5%’s fraktilen er 1,96 accepteres hypotesen på et signifikansniveau på 5%.

t-test ved normalfordelte observationer. Lad X1, X2, ……Xn er indbyrdes uafhængige N(μ, σ2) - fordelt stokastiske variable. Der gælder da, at er N(μ, , σ2/n) – fordelt . Har man derfor et observationssæt x1, x2, ……xn , som antages at være N(μ, σ2) – fordelt, hvor σ2 er ukendt, skal både μ og σ2 estimeres. Har man et konkret observationssæt x1, x2, ……xn , er estimatet for μ : og for σ2 : Laver man en tilsvarende teststørrelse som ved u-testet, har man følgende situation:

Hypotesen H0 : μ = μ0 med H1 : μ ≠ μ0 ønskes testet. Teststørrelsen bliver Det ses, at er en stokastisk variabel, og derfor er t ikke normalfordelt. Man kan vise, at er σ2χ2 - fordelt med n-1 frihedsgrader. Testoren t følger en såkaldt t-fordeling med n-1 frihedsgrader. t-fordelingen konvergere mod N(0, 1) – fordelingen for n gående mod uendelig. t-fordelingens tæthedsfunktion er også symmetrisk om 0. Ellers fungerer alt som ved u-testet.

Eksempel: Ved produktion af piller har man målt nicotamid-indholdet i 20 piller. Indholdet skal være 25mg. Ved stikprøven på 20 piller fik man følgende resultater: 22,67 23,29 23,40 23,56 23,76 23,83 23,95 24,21 24,50 24,64 24,87 25,05 25,35 25,73 25,79 25,80 26,11 26,97 25,36 27,11 Model : Xi ̴ N(μ, σ2) for i=1 til 20 er uafhængige stokastiske variable. H0 : μ = 25 , H1 : μ ≠ 25 Parametrene estimeres = 24,799 ; s2 = 1,5187 Teststørrelsen bliver Da 2,5%’s fraktilen er -2,093 for 19 frihedsgrader, accepters hypotesen.

Sammenligning af to normalfordelte obsevationsrækker. På 13 hunde har man målt ph-værdien i arterielt blod før og efter indåndingen af CO2. Ændrer indåndingen af CO2 ph-værdien? Nr normal CO2 differens Model for differensen: Xi er uafh. N(μ, σ2)- fordelt for i=1,2…13 H0 : μ = 0 ; H1 : μ ≠ 0 Estimater : = 0,1838 s2 = 0,014176 Teststørrelsen udregnes 1 7,42 7,26 0,16 2 7,52 7,30 0,22 3 7,36 7,26 0,10 4 7,43 7,39 0,04 5 7,43 7,38 0,05 6 7,15 6,69 0,46 7 7,50 7,32 0,18 8 7,34 7,26 0,08 9 7,45 7,23 0,22 10 7,42 7,06 0,36 11 7,53 7,34 0,19 12 7,48 7,28 0,20 13 7,42 7,29 0,13 Da 97,5%’s fraktilen er 2,179 for 12 frihedsgrader forkastes hypotesen. 99,5%’s fraktilen er 3,055 og hypotesen vil også blive forkastet på 1%’s signifikansniveau.

Lineær regression Antag at Yi for i = 1 til n er uafhængige N(μi, σ2) -fordelte således at Man kan vise at estimaterne for parametrene er Man kan også vise, at estimatoren for β er - fordelt. Man kan derfor teste hypotesen H0 : β = β0 med teststørrelsen som er t-fordelt med n-2 frihedsgrader under H0 . Hvis β0 = 0 tester man uafhængighed af x og y værdierne.

Eksempel : Man for 28 patienter målt kreatininindholdet i blodet før og efter dødens indtræden. Er der en sammenhæng? Dataene kan ses i en excelfil. Der er en pæn lineær sammenhæng og parametrene estimeres. Man vil gerne teste hypotesen H0 : β = 1 som er t-fordelt med 26 frihedsgrader. Da 97,5%’s fraktilen er 2,056 accepteres hypotesen. Dataene er analyseret vha. SPSS : kreatinin.sav