Repetition Fortolkning af odds Test i logistisk regression

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 20 Ikke-parametriske metoder
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Program Informationer χ2-test (chi-i-anden) Projekt 3
Anvendt Statistik Lektion 6
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Signifikanstest ved (en eller) to stikprøver
Learning Objectives 5 Steps of a Significance Test Assumptions
Statistik II 5. Lektion Log-lineære modeller.
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistisk inferens Dagens program Grupper, opgave 1
Learning Objectives 5 Steps of a Significance Test Assumptions
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Grundlæggende teoretisk statistik
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Grunde til at jeg elsker dig
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Heteroskedaticitet (Specifikation og dataproblemer) 2. november 2005.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Side Grundlæggende teoretisk statistik Hypotesetest: Test i 2 populationer.
Grundlæggende teoretisk statistik
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Præsentationens transcript:

Repetition Fortolkning af odds Test i logistisk regression

Logisitks Regression: Repetition Y  {0,1} binær afhængig variabel X skala forklarende variabel p = P( Y = 1| X = x) Odds(Y = 1| X = x) = p /(1-p ) Logit(Y = 1| X = x) = ln(Odds(Y = 1| X = x)) = ln(p /(1-p )) Model: Logit(Y = 1| X = x) = b0 + b1x

Omskrivninger Odds-ratio, når X vokser med én:

Multipel Logistisk Regression Analogt med multipel lineære regression er en multipel logistisk regressions model givet ved: Omskrivning: Som ved MLR kan vi vha. dummy-variable indføre kategoriske forklarende variable.

Estimaternes fordeling. Antag bi er den sande værdi og bi er det tilsvarende estimat. Hvis vi har indsamlet data nok, så gælder der Dvs. bi er et unbiased estimat. Standard fejlen SE(bi) afhænger af mængden af data. SE(bi) bestemmes af SPSS.

Konfidens-interval for logit-forskel Et (1-a)100% konfidens-interval for bi: Et (1-a)100% konfidens-interval for exp(bi) :

Hypotesetest Hypoteser Teststørrelse: (Wald teststør.) H0: βi = 0 (uafhængighed) H1: βi = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

Eksempel: CHD (coronary heart decease) Data for n = 463 personer Afhængig variabel: lider/lider ikke af CHD Y = 1 hvis CHD Y = 0 hvis ej CHD Forklarende variable: X1 = Alder X2 = Cigaretter pr dag X3 = 1, hvis CHD i familien X3 = 0, hvis ej CHD i familien

Multipel Logistisk Regression Model: SPSS output: Estimerede model: SE(b) Z2 p-værdi b a eb 95% konf-int. for exp(b)

Fortolkning Alle forklarende variable er signifikante! Estimerede sandsynlighed for CHD Alle forklarende variable medvirker til øget sandsynlighed for CHD.

Odds-ratio og CHD i Familien Et Odds-ratio for CHD givet CHD i Familien Bemærk at vi har ”ignoreret” X1 og X2 på venstresiden, da OR’et beregnes for fastholdte X1 og X2. Konklusion er at, hvis man har CHD i familien, så risikoen for CHD signifikant større.

Ikke-paramertriske metoder Parametriske vs Ikke-parametriske Metoder Sign Test Run Test Wald-Wolfowitz Test Mann-Whitney U Test Wilcoxon Signed-rank Test

Parametriske metode Vi bygger en statistisk model af virkeligheden og udtrykker vores specifikke interesse i ukendte parametre – som vi så kan lave inferens for / undersøgelser af Fx Undersøgelsen bygger på modelantagelser og er ”en præcis løsning, til et approksimeret problem”.

Ikke-parametriske metoder Bygger ikke på modelantagelser og er derfor robuste overfor forskellige udgangs-situationer. De mister til gengæld lidt i styrke (power). Undersøgelsen bygger ikke på antagelser om specielle fordelinger og er ”en approksimeret løsning til et præcist problem”.

The Sign Test Eksempel: Holdning til chef på en skala (1-5) før (X) og efter (Y). Lad p=P(X>Y) Hvis holdningen er den samme de to år, så er p=1/2. Sign = ’+’ hvis X>Y , ’-’ hvis X<Y Observationer hvor X=Y smides ud! i Før Efter Forskl Sign 1 3 4 1 + 2 5 5 0 3 2 3 1 + 4 2 4 1 + 5 4 4 0 6 2 3 1 + 7 1 2 1 + 8 5 4 -1 - 9 4 5 1 + 5 4 -1 - . . . . . Hypoteser: To-sidet test En-sidet test

The Sign Test Antag vi har n0=17 observationer af X og Y. I to tilfælde har vi X=Y – disse udelades. Tilbage er n=15 observation. Antag at X>Y i 12 tilfælde (12 +’er) og at vi ønsker at teste H0: p≤0.5 (Husk at p=P(X>Y) ) H1: p>0.5 Teststørrelse: T = antal plusser. Kritisk for H0 er ”mange plusser” Hvis p=0.5 er T binomial fordelt B(15,0.5). P-værdi=P(T≥12)=1-P(X≤11)=1-0.982=0.18 SPSS: Analyze→Nonparametric Tests→2 Related Samples

Run Test Er sekvensen PPPKKKPPPKKKPPKKKPPP opstået tilfældigt, dvs. er hvert tegn uafhængigt af de andre? Et ”run” er en sekvens af ens elementer, der kommer efter og før en anden slags (eller ingen) elementer. PKPKPKPKPK 10 runs 10 elementer PPPPPKKKKK 2 runs 10 elementer PPKKKPKPPP 5 runs 10 elementer n1=antal P’er n2=antal K’er n=n1+n2

Run Test: Eksempel Er sekvensen PPKKKPKPPP 5 runs 10 elementer opstået tilfældigt? s796-797 er tabel over P(antal runs ≤ r) Test for om ovenstående sekvens er tilfældig: n1=7 n2=4 #runs=5 Et lille eller stort antal runs er kritisk for H0. P(#runs ≤ 5) = 0.3333

Run Test: Eksempel 2 Hvor mange eller få runs skulle der være for at forkaste på niveau α=0.05? Antag: n1= #P = 7 n2 = #K = 4 Tabel s796: P(#runs ≤ 2) = 0.006 P(#runs ≤ 3) = 0.033 P(#runs > 8) = 1-0.954 = 0.046 P(#runs ≤ 2) + P(#runs ≥9) = 0.006+0.046=0.052 Ved at forkaste hypotesen om en tilfældig sekvens hvis #runs ≤ 2 eller #runs ≥9 Bemærk: Vi tester vi på niveau α=0.052.

Run Test: Når n1 og n2 er store! R = Antal runs Når n1 og n2 bliver store vil R blive approksimativt normalfordelt under hypotesen om tilfældig sekvens. Specifik: R → N(E(R),σR2) (R nærmer sig en normalfordeling) Vi normaliserer/standardiserer R så under hypotesen om tilfældig sekvens. Test udføres som sædvanligt for N(0,1) fordelingen. ~

Run Test: Eksempel 3 (Ex 14-2) n1 = 27 n2 = 26 R = 15 Hermed afviser vi H0.

Wald-Wolfowitz Test Dette test er videreudvikling af tankegangen bag run testet. Vi tester for: H0: De to populationer har samme fordeling H1: De to populationer har forskellige fordelinger Forudsætning: De to stikprøver er udvalgt tilfældigt og uafhængigt af de respektive populationer. Ideen er at sortere de to stikprøver efter stigende størrelse. Hver observation får en ’rank’, dvs. dvs. observationens ”nummer” i den sorterede rækkefølge.

Wald-Wolfowitz Test: Eksempel Det daglige salg fra to sælgere Sælger A: 35, 44, 39, 50, 48, 29, 60, 75, 49, 66 Sælger B: 17, 23, 13, 24, 33, 21, 18, 16, 32 n1 = 10 og n2 = 9 Sorteret efter størrelse (fordtegn = rank) : Sælger A: 298,3511,3912,4413,4814,4915,5016,6017, 6618,7519 Sælger B: 131,162,173,184,215,236,247,329,3310 Alle salg sorteret efter størrelse og angivet ved sælger BBBBBBBABBAAAAAAAAA R = antal runs = 4 (Sælger B har de 7 mindste salg og sælger A de 9 største)

Wald-Wolfowitz Test: Eksempel Vi tester følgende hypotese H0: Sælger A og sælger B har samme salg H1: De har forskellig salg. n1 = 10 n2 = 9 R=4 Lille antal runs kritisk for H0 – Stort antal runs taler for H0. Fra tabel s 796 har vi P(R≤4) = 0.002 = P-værdi Dvs. vi forkaster H0. Antallet af runs er for lille til, at vi tror på ens fordelinger.

Mann-Whitney U Test Vi tester for: H0: De to populationer har samme fordeling H1: De to populationer har forskellige fordelinger Testet er et alternativ til t-testet for uafhængige stikprøver og til Wald-Wolfowitz run test. Styrken af Mann-Whitney testet er omtrent på højde med t-testets og bedre end Wald-Wolfowitz. Testet baserer sig på ranks.

Mann-Whitney U Test: Eksempel De to stikprøver tildeles ranks som de kom fra én stikprøve (fodtegn = rank) : A: 106.5, 84, 1410, 75, 53 n1=5 R1=6.5+4+10+5+3=28.5 B: 118, 21, 139, 106.5, 32 n2=5 R2=8+1+9+6.5+2=26.5 R1 = Sum af ranks Teststørrelse: Små og store værdier af U er kritiske for H0. For små værdier af n1 og n2 findes fordeling af U s798-802. I eksemplet n1 = n2 = 5: P(U≤11.5)=0.4206 => P(U>11.5)=0.5704

Mann-Whitney U Test: Eksempel Hvis n1, n2 > 10 bruges normalfordelings-approksimation: Program 1 Program 2 Score Rank Score Rank Sum 85 20.0 20.0 87 21.0 41.0 92 27.0 68.0 98 30.0 98.0 90 26.0 124.0 88 23.0 147.0 75 17.0 164.0 72 13.5 177.5 60 6.5 184.0 93 28.0 212.0 88 23.0 235.0 89 25.0 260.0 96 29.0 289.0 73 15.0 304.0 62 8.5 312.5 Score Rank Score Rank Sum 65 10.0 10.0 57 4.0 14.0 74 16.0 30.0 43 2.0 32.0 39 1.0 33.0 88 23.0 56.0 62 8.5 64.5 69 11.0 75.5 70 12.0 87.5 72 13.5 101.0 59 5.0 106.0 60 6.5 112.5 80 18.0 130.5 83 19.0 149.5 50 3.0 152.5 Da teststørrelsen er z = -3.32, er P-værdien ≈ 0.0005, og H0 afvises.

Wilcoxon Signed-rank Test Bruges ved sammenligning af to populationer med parrede observationer. Et alternativ til parret t-test eller sign-test. H0: Medianen af differenser mellem pop1 og pop2 er forskellig H1: Nix Antagelser: Fordeling af differenser er symmetrisk. Differenserne er indbyrdes uafhængige Observationerne er mindst intervalskaleret Di = X1,i – X2,i differensen for i’te par.

Wilcoxon Signed-rank Test Beregning: Udregn alle differenser, Di. Find ranks for |Di| (den absolutte værdi af Di). Find sum af ranks af |Di| hvor Di>0 og sum af ranks af |Di| hvor Di<0 og I bogens notation: Σ(+) og Σ(-) Wilcoxon signed-rank teststørrelse: T = min[ Σ(+) , Σ(-) ]

Wilcoxon Signed-rank Test: Eksempel Beslutningsregel: Find kritisk punkt for T i tabel s803. Hvis T er mindre end det fundne kritiske punkt forkastes H0. Hypotese: H0: μ1 = μ2 H1: μ1 ≠ μ2 X1 X2 D R Σ(+) Σ(-) 10 12 -2 2 3.5 11 14 -3 3 5 9 8 +1 1 1.5 -1 +2 T = min[5,10] = 5 Kritisk punkt på signifikans-niveau α=0.10 er 1 jvf s803. H0 accepteres da 5>1.

Wilcoxon Signed-rank Test H0: μ1 = μ2 H0: μ1 ≤ μ2 H0: μ1 ≥ μ2 H1: μ1 ≠ μ2 H1: μ1 > μ2 H1: μ1 < μ2 Tosidet Ensidet Ensidet T = min[Σ(+),Σ(-)] T= Σ(-) T= Σ(+) Små værdier af T er kritiske for H0. Large sample approksimation: Når n1 og n2 er store er T approksimativt normalfordelt.

Hourly Rank Rank Rank Messages Md0 D=x1-x2 ABS(D) ABS(D) (D>0) (D<0) 151 149 2 2 1.0 1.0 0.0 144 149 -5 5 2.0 0.0 2.0 123 149 -26 26 13.0 0.0 13.0 178 149 29 29 15.0 15.0 0.0 105 149 -44 44 23.0 0.0 23.0 112 149 -37 37 20.0 0.0 20.0 140 149 -9 9 4.0 0.0 4.0 167 149 18 18 10.0 10.0 0.0 177 149 28 28 14.0 14.0 0.0 185 149 36 36 19.0 19.0 0.0 129 149 -20 20 11.0 0.0 11.0 160 149 11 11 6.0 6.0 0.0 110 149 -39 39 21.0 0.0 21.0 170 149 21 21 12.0 12.0 0.0 198 149 49 49 25.0 25.0 0.0 165 149 16 16 8.0 8.0 0.0 109 149 -40 40 22.0 0.0 22.0 118 149 -31 31 16.5 0.0 16.5 155 149 6 6 3.0 3.0 0.0 102 149 -47 47 24.0 0.0 24.0 164 149 15 15 7.0 7.0 0.0 180 149 31 31 16.5 16.5 0.0 139 149 -10 10 5.0 0.0 5.0 166 149 17 17 9.0 9.0 0.0 82 149 33 33 18.0 18.0 0.0 Sum: 163.5 161.5