Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Hjemmeside : http://ak.aau.dk/jfj Statistiske test Silkeborg efteråret 2009 Jens Friis, AAU Hjemmeside : http://ak.aau.dk/jfj.

Lignende præsentationer


Præsentationer af emnet: "Hjemmeside : http://ak.aau.dk/jfj Statistiske test Silkeborg efteråret 2009 Jens Friis, AAU Hjemmeside : http://ak.aau.dk/jfj."— Præsentationens transcript:

1 Hjemmeside : http://ak.aau.dk/jfj
Statistiske test Silkeborg efteråret 2009 Jens Friis, AAU Hjemmeside :

2 Kontinuerte fordelinger
Definition: Tæthedsfunktion En sandsynlighedstæthedsfunktion på R er en integrabel funktion f : R→[0;∞[ hvor =1 Definition: Kontinuert fordeling En kontinuert sandsynlighedsfordeling er en sandsynlighedsfordeling, som har en sandsynlighedstæthedsfunktion f : funktionen kaldes fordelingsfunktionen for en kontinuert fordeling på R Definition: middelværdi ,varians og spredning Lad X være en stokastisk variabel med tæthedfunktion f(x) Middelværdi : μ=E(X)= Varians : σ2=E((X-μ)2)= Spredningen er σ

3 Normalfordelingen er det klassiske eksempel på en kontinuert
fordeling. Her er tæthedsfunktionen givet ved Middelværdien er μ og spredningen σ. Den stokastiske variabel med denne tæthedsfunktion siges at være N(μ, σ2) –fordelt. Den normalfordelte stokastiske variabel, som har middelværdi 0 og varians 1, kaldes sædvanligvis U, og den tilhørende tæt- hedsfunktion for φ , dvs. at Den tilsvarende fordelingsfunktion kaldes for Ф, dvs. at

4 Man kan derfor klare sig med kendskab til værdier af Ф, som er
Der gælder følgende : Man kan derfor klare sig med kendskab til værdier af Ф, som er tabellagt og indlagt i de fleste computersystemer. Undersøgelse af om et observationssæt kan betragtes som Normalfordelt: Apgar- fødselsvægt (SPSS) eller BMI – Geogear (SPSS)

5 Man kunne også have indført normalfordelingen således :
Definition En stokastisk variabel U siges at være u-fordelt eller N(0 , 1) -fordelt, hvis tæthedsfunktionen for U er givet ved Sætning: E(U) = 0 og V(x) = 1 Definition En stokastisk variabel X = μ + σU, hvor μ R og σ R+ , siges at være N(μ , σ2 ) -fordelt Sætning: E(X) = μ og V(X) = σ2

6 Sætning Den N(μ , σ2 ) –fordelte stokastiske variabel X har tæthedsfunktionen Bevis:

7 Hvorfor er normalfordelingen interessent?
Ja, det er den, fordi gennemsnittet af næsten alle målinger tilnærmelsesvis er normalfordelt. Mere præcist, så gælder den centrale grænseværdisætning : Man kan vise, at hvis X er b(n,p)-fordelt, er X tilnærmelsesvis normalfordelt N(µ, σ2 ) for n→ ∞ , hvor µ = np og σ2 = np(1-p) . Hvad var det nu lige binomialfordelingen er for noget ?

8 Binomialfordelingen Et basiseksperiment beskrives af et udfaldsrum E med to udfald succes (s) og fiasko (f), dvs. E={s,f}, hvor P(s)=p og P(f)=1-p. Basiseksperimemtet gentages n gange uafhængigt af hinanden. Hvis X betegner antal succes i de n gentagelser gælder der Sætning: E(X)=np ; V(X)=np(1-p) Eks. 5 uafhængige kast med en terning. X er antal 6’ere. q 1 2 3 4 5 P(X=q) 0,402 0,462 0,161 0,032 0,003 0,000 Se også SPSS: poisBin6indlagte.sav

9 Heraf følger , at hvis X binomialfordelt b(n, p) er
tilnærmelsesvis N( 0, 1)-fordelt Lad os nu endelig komme til χ2 -fordelingen. Definition Lad X1, X2, ……Xn er indbyrdes uafhængige N(0, 1) –fordelte stokastiske variable. Summen siges at være χ2- fordelt med n frihedsgrader. Sætning En stokastisk variabel, som er χ2- fordelt med n frihedsgrader, har tæthedsfunktionen , hvor

10 Antag at X ̴ b(p, n) ̴ ≈ N(0, 1) ̴ ≈ χ2 , f = 1
Hvis man har en stikprøve, som er binomialfordelt (fx stikprøve med svarmulighederne ja/nej kan man benytte et χ2 -test, hvis man ønsker at teste hypotesen Ho : p = p Den alternative hypotese er H1 : p ≠ p0 Antal ja Antal nej ialt observeret x n-x n forventet np0 n(1-p0) som tilnærmelsesvis er χ2 –fordelt med 1 frihedsgrad. Dvs reglen er, at man udregner Det er klart, at store værdier er kritiske for accept af hypotesen.

11 Accept af hypoteser Man arbejder med et såkaldt signifikansniveau, som sædvanligvis er 5% eller 1%. Signifikansniveauet er sandsynligheden for at forkaste en rigtig hypotese. Man kan da begå to fejl : type 1 : forkaste en rigtig hypotese type 2: acceptere en hypotese selv om den er forkert For at kunne bedømme et tests styrke skal man studere sandsynligheden for at begå fejl af type 2. Det er ofte ret kompliceret, og indgår normalt ikke i indledende statistik- kurser.

12 Eksempel på χ2 -test med 1 frihedsgrad
I en meningsmåling har man spurgt 1500 vælgere om de vil stemme på Socialdemokratiet, hvis der var valg nu. Resultatet blev Antal ja Antal nej Ialt 465 1035 1500 Afviger dette resultat signifikant fra hypotesen, at 1/3 vil stemme på partiet? Formuleret mere matematisk: X betegner antal stemmer på partiet og modellen er, at X ̴ b(1500, p) og nulhypotesen er H0 : p = 1/3 . H1 : p ≠ 1/3 Følgende tabel udregnes : Antal ja Antal nej I alt observeret 465 1035 1500 forventet 500 1000 Da 95%’s fraktilen er 3,84 accepteres hypotesen på et signifikansniveau på 5% .

13 Multinomialfordelingen
X = (X1, X2, ……….Xk) siges, at være multinomialfordelt b(n,p1,p2….pk) , hvis p1+p2+…..pk=1 og , hvor x1+x2+…..xk=n På samme måde som ved binomialfordelingen kan man se på et basiseksperiment som gentages n gange uafhængigt af hinanden. I stedet for succes eller fiasko er der k svarmuligheder. Dvs. at X1 er antal svar på kategori 1 X2 ” ” 2 Xk ” ” k

14 Som ved binomialfordelingen kan man teste, at de enkelte sandsynlighedsparametre antager givne værdier, dvs. at modellen er X=(X1, X2, ……….Xk) er multinomialfordelt b(n,p1,p2….pk) , og nulhypotesen er H0 : p1 = p01, p2 = p02,……..pk = p0k og H1 : p1 ≠ p01, p2 ≠ p02,……..pk ≠ p0k Igen kan man lave et χ2 - test , her med k-1 frihedsgrader. Igen er det En tommelfingerregel er, at for at anvende testet skal alle forventede værdier være større end 5.

15 Eksempel : Mendel avlede bønner, som gav følgende udbytte form\ farve gule grønne Runde 315 108 kantede 101 32 Da de stammede fra en krydsning af dobbelte heterozygotiske bønner, skulle udbyttet være i forholdet 9 : 3 : 3 : 1. Som model kan anvendes en multinomialfordeling b(556, p1, p2, p3, p4) . Nulhypotesen er H0 : Følgende tabel udregnes : i 1 2 3 4 sum observeret 315 101 108 32 556 forventet 312,75 104,25 34,75

16 Eksempel fortsat: χ2 – testet med 3 frihedsgrader udregnes :
Da 95%’s fraktilen er 7,81 accepteres hypotesen på et signifikansniveau på 5%.

17 Sammenligning af flere multinomialfordelinger eller test for uafhængighed
Model : X1 = (X11, X12, ……….X1k) ̴ b(n1,p11,p12….p1k) X2 = (X21, X22, ……….X2k) ̴ b(n2,p21,p22….p2k) . Xm = (Xm1, Xm2, ……..Xm2) ̴ b(nm,pm1,pm2….pmk) Nulpypotese : H0 : p11 = p21 = ….. = pm1 p12 = p22 =….. = pm2 . p1k = p2k = …. = pmk H1 : forskellige pr. kategori Som test anvendes igen : som er χ2 –fordelt med f = (m-1)(k-1) frihedsgrader . Også her bør de forventede værdier være større end 5.

18 Lad os lige se på en kontingenstabel over de observerede :
i \ j 1 j k sum x11 x1j x1k x1. . i xij xi. m xm1 xmj xmk xm. x.1 x.j x.k n=x.. Læg mærke til, at det forventede antal i celle (i,j) er Man udregner søjlefrekvens gange rækkefrekvens gange samlet antal, altså tester man uafhængighed af de to inddelingskreterier.

19 Eksempel : For mange år siden lavede Dansk Skakunion en læserundersøgelse for deres
medlemsblad. Man spurgte bl.a. om Hvad foretrækker du? (sæt kryds) 1. at partierne bringes adskilt fra referater og nyheder 2. at partierne bringes sammen med referater og nyheder 3. ved ikke. Spillerne blev inddelt i spillerstyrke og resultatet blev: svar /styrke 1 2 3 sum 15 43 61 30 97 21 148 36 98 25 159 4 39 67 136 120 305 79 504

20 Hvis man vil teste om svarene er uafhængig af spillerstyrke er de fælles
skøn over p’erne Tabellen med de forventede kan udregnes : svar styrke 1 2 3 sum 14,524 36,915 9,562 61 35,238 89,563 23,198 148 37,857 96,220 24,923 159 4 32,387 82,302 21,317 136 120 305 79 504 Idet Da χ2 = 14,98 og f=(4-1)(3-1)=6 og 95%’s fraktilen er 12,59 forkastes hypotesen Med et signifikansniveau på 5%

21 Eksempel : for en del år siden undersøgte man om flere gange straffede personer
havde en én-ægget eller to-ægget tvillinge bror/søster. Resultatet blev : observeret kriminel ikke kriminel sum én ægget 10 3 13 to ægget 2 15 17 12 18 30 H0 : fordelingen på kriminel/ikke kriminel ed den samme for én- og to ægget. De forventede bliver forventet ikke kriminel sum én ægget 5,2 7,8 13 to ægget 6,8 10,2 17 12 18 30 Χ2 = 13,02 , f = (2-1)(2-1) = 1 . Da 95%’s fraktilen er 3,84 forkastes hypotesen med et signifikans på 5%. Da 99%’s fraktilen er 6,63 kan også forkaste på et signifikansniveau på 1%.

22 Hvorfor er der det antal frihedsgrader ?
Ved hjælp af den såkaldte spaltningssætning kan man vise : Hvis X1, X2, X3 …….,Xn er N(0,1) - fordelte, og der k lineære bånd mellem dem er χ2 – fordelt med n - k frihedsgrader I tilfældet med en m x k tabel er der m∙k – k – m + 1 = (m – 1) (k – 1) frihedsgrader Beviser for denne sætning ligger langt ud over gymnasieniveau. Et sidste eksempel : rygning og apgar-tal : vha. SPSS

23 u-test ved normalfordelte observationer.
Lad X1, X2, ……Xn er indbyrdes uafhængige N(μ, σ2) - fordelt stokastiske variable. Der gælder da, at er N(μ, , σ2/n) – fordelt . Har man derfor et observationssæt x1, x2, ……xn , som antages at være N(μ, σ2) – fordelt, hvor σ2 er kendt, kan hypotesen H0 : μ = μ0 med H1 : μ ≠ μ0 testes med teststørrelsen , som under H0 er N(0, 1) – fordelt. Acceptområder er mellem fraktilen og fraktilen, hvor er signifikansniveauet.

24 Nu er det sjældent, at man kender variansen i et observationssæt
Nu er det sjældent, at man kender variansen i et observationssæt. Der er der oftest tale om et approksimativt u-test. Eks. I en meningsmåling har man spurgt 1500 vælgere om de vil stemme på Socialdemokratiet, hvis der var valg nu. Resultatet blev Antal ja Antal nej Ialt 465 1035 1500 Afviger dette resultat signifikant fra hypotesen, at 30% vil stemme på partiet? Formuleret mere matematisk: X betegner antal stemmer på partiet og modellen er, at X ̴ b(1500, p) og nulhypotesen er H0 : p = 0,30 . H1 : p ≠ 0,30 Vi ved at under H0 er X er approksimativt fordelt. Teststørrelsen udregnes Da 97,5%’s fraktilen er 1,96 accepteres hypotesen på et signifikansniveau på 5%.

25 t-test ved normalfordelte observationer.
Lad X1, X2, ……Xn er indbyrdes uafhængige N(μ, σ2) - fordelt stokastiske variable. Der gælder da, at er N(μ, , σ2/n) – fordelt . Har man derfor et observationssæt x1, x2, ……xn , som antages at være N(μ, σ2) – fordelt, hvor σ2 er ukendt, skal både μ og σ2 estimeres. Har man et konkret observationssæt x1, x2, ……xn , er estimatet for μ : og for σ2 : Laver man en tilsvarende teststørrelse som ved u-testet, har man følgende situation:

26 Hypotesen H0 : μ = μ0 med H1 : μ ≠ μ0 ønskes testet. Teststørrelsen bliver Det ses, at er en stokastisk variabel, og derfor er t ikke normalfordelt. Man kan vise, at er σ2χ2 - fordelt med n-1 frihedsgrader. Testoren t følger en såkaldt t-fordeling med n-1 frihedsgrader. t-fordelingen konvergere mod N(0, 1) – fordelingen for n gående mod uendelig. t-fordelingens tæthedsfunktion er også symmetrisk om 0. Ellers fungerer alt som ved u-testet.

27 Eksempel: Ved produktion af piller har man målt nicotamid-indholdet i 20 piller.
Indholdet skal være 25mg. Ved stikprøven på 20 piller fik man følgende resultater: 22,67 23,29 23,40 23,56 23,76 23,83 23,95 24,21 24,50 24,64 24,87 25,05 25,35 25,73 25,79 25,80 26,11 26,97 25,36 27,11 Model : Xi ̴ N(μ, σ2) for i=1 til 20 er uafhængige stokastiske variable. H0 : μ = 25 , H1 : μ ≠ 25 Parametrene estimeres = 24, ; s2 = 1,5187 Teststørrelsen bliver Da 2,5%’s fraktilen er -2,093 for 19 frihedsgrader, accepters hypotesen.

28 Sammenligning af to normalfordelte obsevationsrækker.
På 13 hunde har man målt ph-værdien i arterielt blod før og efter indåndingen af CO2. Ændrer indåndingen af CO2 ph-værdien? Nr normal CO2 differens Model for differensen: Xi er uafh. N(μ, σ2)- fordelt for i=1,2…13 H0 : μ = 0 ; H1 : μ ≠ 0 Estimater : = 0, s2 = 0,014176 Teststørrelsen udregnes 1 7,42 7,26 0,16 2 7,52 7,30 0,22 3 7,36 7,26 0,10 4 7,43 7,39 0,04 5 7,43 7,38 0,05 6 7,15 6,69 0,46 7 7,50 7,32 0,18 8 7,34 7,26 0,08 9 7,45 7,23 0,22 10 7,42 7,06 0,36 11 7,53 7,34 0,19 12 7,48 7,28 0,20 13 7,42 7,29 0,13 Da 97,5%’s fraktilen er 2,179 for 12 frihedsgrader forkastes hypotesen. 99,5%’s fraktilen er 3,055 og hypotesen vil også blive forkastet på 1%’s signifikansniveau.

29 Lineær regression Antag at Yi for i = 1 til n er uafhængige N(μi, σ2) -fordelte således at Man kan vise at estimaterne for parametrene er Man kan også vise, at estimatoren for β er fordelt. Man kan derfor teste hypotesen H0 : β = β0 med teststørrelsen som er t-fordelt med n-2 frihedsgrader under H0 . Hvis β0 = 0 tester man uafhængighed af x og y værdierne.

30 Eksempel : Man for 28 patienter målt kreatininindholdet i blodet før og efter
dødens indtræden. Er der en sammenhæng? Dataene kan ses i en excelfil. Der er en pæn lineær sammenhæng og parametrene estimeres. Man vil gerne teste hypotesen H0 : β = 1 som er t-fordelt med 26 frihedsgrader. Da 97,5%’s fraktilen er 2,056 accepteres hypotesen. Dataene er analyseret vha. SPSS : kreatinin.sav


Download ppt "Hjemmeside : http://ak.aau.dk/jfj Statistiske test Silkeborg efteråret 2009 Jens Friis, AAU Hjemmeside : http://ak.aau.dk/jfj."

Lignende præsentationer


Annoncer fra Google