Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Repetition Fortolkning af odds Test i logistisk regression

Lignende præsentationer


Præsentationer af emnet: "Repetition Fortolkning af odds Test i logistisk regression"— Præsentationens transcript:

1 Repetition Fortolkning af odds Test i logistisk regression

2 Logisitks Regression: Repetition
Y  {0,1} binær afhængig variabel X skala forklarende variabel p = P( Y = 1| X = x) Odds(Y = 1| X = x) = p /(1-p ) Logit(Y = 1| X = x) = ln(Odds(Y = 1| X = x)) = ln(p /(1-p )) Model: Logit(Y = 1| X = x) = b0 + b1x

3 Omskrivninger Odds-ratio, når X vokser med én:

4 Multipel Logistisk Regression
Analogt med multipel lineære regression er en multipel logistisk regressions model givet ved: Omskrivning: Som ved MLR kan vi vha. dummy-variable indføre kategoriske forklarende variable.

5 Estimaternes fordeling.
Antag bi er den sande værdi og bi er det tilsvarende estimat. Hvis vi har indsamlet data nok, så gælder der Dvs. bi er et unbiased estimat. Standard fejlen SE(bi) afhænger af mængden af data. SE(bi) bestemmes af SPSS.

6 Konfidens-interval for logit-forskel
Et (1-a)100% konfidens-interval for bi: Et (1-a)100% konfidens-interval for exp(bi) :

7 Hypotesetest Hypoteser Teststørrelse: (Wald teststør.)
H0: βi = 0 (uafhængighed) H1: βi = 0 (afhængighed) Teststørrelse: (Wald teststør.) Under H0 gælder: Store værdier af Z2 er ufordelagtige for H0.

8 Eksempel: CHD (coronary heart decease)
Data for n = 463 personer Afhængig variabel: lider/lider ikke af CHD Y = 1 hvis CHD Y = 0 hvis ej CHD Forklarende variable: X1 = Alder X2 = Cigaretter pr dag X3 = 1, hvis CHD i familien X3 = 0, hvis ej CHD i familien

9 Multipel Logistisk Regression
Model: SPSS output: Estimerede model: SE(b) Z2 p-værdi b a eb 95% konf-int. for exp(b)

10 Fortolkning Alle forklarende variable er signifikante!
Estimerede sandsynlighed for CHD Alle forklarende variable medvirker til øget sandsynlighed for CHD.

11 Odds-ratio og CHD i Familien
Et Odds-ratio for CHD givet CHD i Familien Bemærk at vi har ”ignoreret” X1 og X2 på venstresiden, da OR’et beregnes for fastholdte X1 og X2. Konklusion er at, hvis man har CHD i familien, så risikoen for CHD signifikant større.

12 Ikke-paramertriske metoder
Parametriske vs Ikke-parametriske Metoder Sign Test Run Test Wald-Wolfowitz Test Mann-Whitney U Test Wilcoxon Signed-rank Test

13 Parametriske metode Vi bygger en statistisk model af virkeligheden og udtrykker vores specifikke interesse i ukendte parametre – som vi så kan lave inferens for / undersøgelser af Fx Undersøgelsen bygger på modelantagelser og er ”en præcis løsning, til et approksimeret problem”.

14 Ikke-parametriske metoder
Bygger ikke på modelantagelser og er derfor robuste overfor forskellige udgangs-situationer. De mister til gengæld lidt i styrke (power). Undersøgelsen bygger ikke på antagelser om specielle fordelinger og er ”en approksimeret løsning til et præcist problem”.

15 The Sign Test Eksempel: Holdning til chef på en skala (1-5) før (X) og efter (Y). Lad p=P(X>Y) Hvis holdningen er den samme de to år, så er p=1/2. Sign = ’+’ hvis X>Y , ’-’ hvis X<Y Observationer hvor X=Y smides ud! i Før Efter Forskl Sign Hypoteser: To-sidet test En-sidet test

16 The Sign Test Antag vi har n0=17 observationer af X og Y. I to tilfælde har vi X=Y – disse udelades. Tilbage er n=15 observation. Antag at X>Y i 12 tilfælde (12 +’er) og at vi ønsker at teste H0: p≤0.5 (Husk at p=P(X>Y) ) H1: p>0.5 Teststørrelse: T = antal plusser. Kritisk for H0 er ”mange plusser” Hvis p=0.5 er T binomial fordelt B(15,0.5). P-værdi=P(T≥12)=1-P(X≤11)= =0.18 SPSS: Analyze→Nonparametric Tests→2 Related Samples

17 Run Test Er sekvensen PPPKKKPPPKKKPPKKKPPP
opstået tilfældigt, dvs. er hvert tegn uafhængigt af de andre? Et ”run” er en sekvens af ens elementer, der kommer efter og før en anden slags (eller ingen) elementer. PKPKPKPKPK 10 runs 10 elementer PPPPPKKKKK 2 runs 10 elementer PPKKKPKPPP 5 runs 10 elementer n1=antal P’er n2=antal K’er n=n1+n2

18 Run Test: Eksempel Er sekvensen PPKKKPKPPP 5 runs 10 elementer
opstået tilfældigt? s er tabel over P(antal runs ≤ r) Test for om ovenstående sekvens er tilfældig: n1=7 n2=4 #runs=5 Et lille eller stort antal runs er kritisk for H0. P(#runs ≤ 5) =

19 Run Test: Eksempel 2 Hvor mange eller få runs skulle der være for at forkaste på niveau α=0.05? Antag: n1= #P = 7 n2 = #K = 4 Tabel s796: P(#runs ≤ 2) = 0.006 P(#runs ≤ 3) = 0.033 P(#runs > 8) = = 0.046 P(#runs ≤ 2) + P(#runs ≥9) = =0.052 Ved at forkaste hypotesen om en tilfældig sekvens hvis #runs ≤ 2 eller #runs ≥9 Bemærk: Vi tester vi på niveau α=0.052.

20 Run Test: Når n1 og n2 er store!
R = Antal runs Når n1 og n2 bliver store vil R blive approksimativt normalfordelt under hypotesen om tilfældig sekvens. Specifik: R → N(E(R),σR2) (R nærmer sig en normalfordeling) Vi normaliserer/standardiserer R så under hypotesen om tilfældig sekvens. Test udføres som sædvanligt for N(0,1) fordelingen. ~

21 Run Test: Eksempel 3 (Ex 14-2)
n1 = 27 n2 = 26 R = 15 Hermed afviser vi H0.

22 Wald-Wolfowitz Test Dette test er videreudvikling af tankegangen bag run testet. Vi tester for: H0: De to populationer har samme fordeling H1: De to populationer har forskellige fordelinger Forudsætning: De to stikprøver er udvalgt tilfældigt og uafhængigt af de respektive populationer. Ideen er at sortere de to stikprøver efter stigende størrelse. Hver observation får en ’rank’, dvs. dvs. observationens ”nummer” i den sorterede rækkefølge.

23 Wald-Wolfowitz Test: Eksempel
Det daglige salg fra to sælgere Sælger A: 35, 44, 39, 50, 48, 29, 60, 75, 49, 66 Sælger B: 17, 23, 13, 24, 33, 21, 18, 16, 32 n1 = 10 og n2 = 9 Sorteret efter størrelse (fordtegn = rank) : Sælger A: 298,3511,3912,4413,4814,4915,5016,6017, 6618,7519 Sælger B: 131,162,173,184,215,236,247,329,3310 Alle salg sorteret efter størrelse og angivet ved sælger BBBBBBBABBAAAAAAAAA R = antal runs = 4 (Sælger B har de 7 mindste salg og sælger A de 9 største)

24 Wald-Wolfowitz Test: Eksempel
Vi tester følgende hypotese H0: Sælger A og sælger B har samme salg H1: De har forskellig salg. n1 = n2 = R=4 Lille antal runs kritisk for H0 – Stort antal runs taler for H0. Fra tabel s 796 har vi P(R≤4) = = P-værdi Dvs. vi forkaster H0. Antallet af runs er for lille til, at vi tror på ens fordelinger.

25 Mann-Whitney U Test Vi tester for:
H0: De to populationer har samme fordeling H1: De to populationer har forskellige fordelinger Testet er et alternativ til t-testet for uafhængige stikprøver og til Wald-Wolfowitz run test. Styrken af Mann-Whitney testet er omtrent på højde med t-testets og bedre end Wald-Wolfowitz. Testet baserer sig på ranks.

26 Mann-Whitney U Test: Eksempel
De to stikprøver tildeles ranks som de kom fra én stikprøve (fodtegn = rank) : A: 106.5, 84, 1410, 75, 53 n1=5 R1= =28.5 B: 118, 21, 139, 106.5, 32 n2=5 R2= =26.5 R1 = Sum af ranks Teststørrelse: Små og store værdier af U er kritiske for H0. For små værdier af n1 og n2 findes fordeling af U s I eksemplet n1 = n2 = 5: P(U≤11.5)= => P(U>11.5)=0.5704

27 Mann-Whitney U Test: Eksempel
Hvis n1, n2 > 10 bruges normalfordelings-approksimation: Program 1 Program 2 Score Rank Score Rank Sum Score Rank Score Rank Sum Da teststørrelsen er z = -3.32, er P-værdien ≈ , og H0 afvises.

28 Wilcoxon Signed-rank Test
Bruges ved sammenligning af to populationer med parrede observationer. Et alternativ til parret t-test eller sign-test. H0: Medianen af differenser mellem pop1 og pop2 er forskellig H1: Nix Antagelser: Fordeling af differenser er symmetrisk. Differenserne er indbyrdes uafhængige Observationerne er mindst intervalskaleret Di = X1,i – X2,i differensen for i’te par.

29 Wilcoxon Signed-rank Test
Beregning: Udregn alle differenser, Di. Find ranks for |Di| (den absolutte værdi af Di). Find sum af ranks af |Di| hvor Di>0 og sum af ranks af |Di| hvor Di<0 og I bogens notation: Σ(+) og Σ(-) Wilcoxon signed-rank teststørrelse: T = min[ Σ(+) , Σ(-) ]

30 Wilcoxon Signed-rank Test: Eksempel
Beslutningsregel: Find kritisk punkt for T i tabel s803. Hvis T er mindre end det fundne kritiske punkt forkastes H0. Hypotese: H0: μ1 = μ2 H1: μ1 ≠ μ2 X1 X2 D R Σ(+) Σ(-) 10 12 -2 2 3.5 11 14 -3 3 5 9 8 +1 1 1.5 -1 +2 T = min[5,10] = 5 Kritisk punkt på signifikans-niveau α=0.10 er 1 jvf s803. H0 accepteres da 5>1.

31 Wilcoxon Signed-rank Test
H0: μ1 = μ2 H0: μ1 ≤ μ2 H0: μ1 ≥ μ2 H1: μ1 ≠ μ2 H1: μ1 > μ2 H1: μ1 < μ2 Tosidet Ensidet Ensidet T = min[Σ(+),Σ(-)] T= Σ(-) T= Σ(+) Små værdier af T er kritiske for H0. Large sample approksimation: Når n1 og n2 er store er T approksimativt normalfordelt.

32 Hourly Rank Rank Rank Messages Md D=x1-x2 ABS(D) ABS(D) (D>0) (D<0) Sum:


Download ppt "Repetition Fortolkning af odds Test i logistisk regression"

Lignende præsentationer


Annoncer fra Google