Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.

Slides:



Advertisements
Lignende præsentationer
Anvendt Statistik Lektion 3
Advertisements

Dummyvariabler 13. oktober 2006
Statistik Lektion 18 Multipel Linear Regression
Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller

Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

Hvis ingen afhængighed… Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende: Odds-ratio Logit-forskel

Kategorisk forklarende variabel Eksempel: Sammenhængen ml. læsehastighed og selvvurdering? Er du en god læser NejJaTotal Sætnings- læsning Hurtig80 6.3% % % Langsom % % % Usikker % % % Total % % % Odds for ”Ja” givet hastighed 1199/80 = /80 = /11 = 1.81 Logit for ”Ja” givet hastighed ln(14.99) = ln(2.56) = 0.94 ln(1.81) = 0.59

Logistisk Regressionsmodel Model: Logit(Ja|Hastighed) =  +  Hastighed  Logit(Ja|Hurtig) =  +  Hurtig  Logit(Ja|Langsom) =  +  Langsom  Logit(Ja|Usikker)=  +  Usikker For reference-kategorien sæt  Hurtig = 0.

Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =  +  Langsom ) -  =  Langsom Logit(Ja|Usikker) - Logit(Ja|Hurtig) =  +  Usikker ) -  =  Usikker Dvs.  Langsom og  Usikker er de to logit-forskelle af interesse. Hypotesetest  H 0 :  Langsom =  Usikker = 0  H 1 :  Langsom ≠ 0 og/eller  Usikker ≠ 0

For hver kategori introducer en binær variabel:  x Hurtig, x Langsom og x Usikker. x Hurtig = 0 altid nul (reference-kategori) x Langsom = 1 hvis Hastighed = Langsom x Langsom = 0 hvis Hastighed ≠ Langsom x Usikker = 1 hvis Hastighed = Usikker x Usikker = 0 hvis Hastighed ≠ Usikker Alternativ: Dummy-variable

Dummy-variable: Nu Som Tabel Hastighedx Langsom x Usikker Hurtig00 Langsom10 Usikker01

Dummy-variable Model: Eksempel: Bemærk struktur:

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den logistiske regression skrives på den generelle form: Og som sandsynlighed:

Skala forklarende variabel Eksempel:  Afhængig variabel:Er du en god læser(Ja/Nej)  Forklarende variable:Antal rigtige i test(0…20) Plot: Andel Ja’er for hver score.

Model: Logit(Ja|Score = x) =  +  x Sandsynlighed: Plot: Logit(Ja|Score=x) Logistisk Regressionsmodel

Logistiske funktion

Fortolkning af  Logit-forskel: Så hver gang ’score’ stiger med 1 stiger logit med . Odds-ratio: Så hver gang score stiger med 1 ændres Odds’et med en faktor e .

Hypotesetest H 0 :  = 0 H 1 :  ≠ 0 Teststørrelse: Jo større ”Wald” jo mindre tror vi på H 0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H 0 siger vi at  er signifikant. Ingen logit-lineær sammenhæng mellem selvvurdering og test-score. Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

SPSS Output Estimerede model: Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(  ) = 1,208, hver gang scoren stiger med 1. Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger. Sandsynligheder

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx: Logit(Ja|Score=x) =  +   x +   x 2 Hvis    ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows   -test Ide: Sammenlign observerede antal Ja’er og forventede antal Ja’er i den tilpassede model. O x =observerede antal personer med score x, der svarer ”Ja”. N x = antal personer med score x. E x = forventede antal personer med score x, der svarer ”Ja”.

Modelkontrol: Hosmer-Lemeshows   -test Teststørrelse: Hvis vores værdier af a og b er korrekte gælder Hvor df = ”antal led i summen” – ”antal parametre i modellen” Hvis  2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen kikset.

SPSS Output Da p-værdien = > 0.05 kan vi ikke afvise H 0. Dvs. vi kan ikke afvise at modellen er korrekt. Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = = 8.

Multipel Logistisk Regression Ide: Mere end en forklarende variabel. Model: Reference-kategorier: Dreng og Hurtig  Dvs:  Dreng = 0 og  Hurtig = 0 Eksempler Logit(Ja|Dreng,Hurtig) =  +  Dreng +  Hurtig =  =  Logit(Ja|Pige,Langsom) =  +  Pige +  Langsom

Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed: Logit(Ja|Køn,Langsom)  Logit(Ja|Køn,Hurtig) = (  +  Køn +  Langsom )  (  +  Køn +  Hurtig ) =  Langsom Dvs.  Langsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet. Logit-forskelle

Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed: Logit(Ja|Pige,Hastighed)  Logit(Ja|Dreng,Hastighed) = (  +  Pige +  Hastighed )  (  +  Dreng +  Hastighed ) =  Pige. Dvs.  Pige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden. Logit-forskelle

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge faktisk afhænger af hastigheden – at der er en interaktion? Indfør interaktionsled  Køn,Hastighed. Model: Logit(Ja|Køn,Hastighed) =  Køn    Hastighed  Køn,Hastighed

Parametere der refererer til en eller flere reference- kategorier sættes lig nul:   Dreng,Hurtig = 0   Dreng, Langsom = 0   Dreng, Usikker = 0   Pige, Hurtig = 0   Pige, Langsom ≠ 0   Pige, Usikker ≠ 0 Interaktion / Vekselvirkning

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed) Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model. Køn DrengPige LæsehastighedHurtig  Pige Langsom  Langsom  Pige  Langsom  Pige,Langsom Usikker  Usikker  Pige  Usikker  Pige,Usikker

Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) =  Pige logit(ja|pige,usikker) – logit(ja|dreng,usikker) =  Pige +  Pige,Usikker. Dvs.  Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere. logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) =  Usikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) =  Usikker +  Pige,Usikker. Dvs.  Pige,Usikker er forskellen i logit-forskellen mellem hurtige og usikre læsere.

Hypotse H 0 :  Pige,Langsom =  Pige,Usikker = 0  Dvs. der er ingen interaktion mellem Køn og Hastighed. H 1 :  Pige,Langsom ≠ 0 og/eller  Pige,Usikker ≠ 0  Dvs. der er interaktion mellem Køn og Hastighed.

SPSS SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på ’>a*b>’ Husk at angive kategoriske variable under ’Categorical’ *Klik*

SPSS: Output Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’ H-L Test: p-værdi = 1, da modellen er mættet. Hverken ’køn’ eller ’hastighed*køn’ er signifikante.

Generel Lineær Model Yafhængig skala variabel X 1,…,X k forklarende variable, skala eller binære Model: Middelværdien af Y givet X Mere præcist: i’te observation ud af n er givet ved x j,i er j’te forklarende variabel for i’te observation.  1,…,  n er uafhængige og identisk fordelt  i ~ N(0,  2 ) IID

Simpel lineær regression X Y XiXi YiYi { β1β1 1 00 εiεi E[Y|X] =  + β 1 X GLM med én skala forklarende variabel (k=1) Modellen er  Modellen siger:  E(Y|X) =  +  1 X  V(Y|X) = σ 2  Y|X ~ N(  + β 1 X, σ 2 )

Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N(  + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5

Estimation Model:  y i =  +  1 x i +  i  ε i er i.i.d. N(0,σ 2 )  , β 1 og σ 2 er modellens parametre – ukendte! Estimation af  og   svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje a er estimat for  og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi  og   ?

er den lodrette afstanden fra den estimerede linie til datapunktet (x i,y i ). Residual led Y X XiXiXiXi Den estimerede regressionslinje

Mindste kvadraters metode Vi vil finde a og b 1 så summen af de kvadrerede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable ( a og b 1 ).

SSE er en funktion af a og b 1. Vi vil finde a og b 1 så SSE er mindst mulig. Minimering a SSE b1b1

Test af hældning (β 1 ) Test for om hældningen, β 1 er forskellig fra nul: Teststørrelse: Numerisk store værdier af t er ufordelagtige for H 0. SE(b 1 ) er standardfejlen for estimatet b 1. Hvis H 0 er sand følger t en såkaldt t-fordeling med n-k- 1 frihedsgrader, hvor n er antal observationer.

Test af hældning (β 1 ) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H Orange område = p-værdi t-fordeling med n-2 frihedsgrader

Fortolkning/Eksempler på H 0 Er der en lineær sammenhæng mellem X og Y? H 0 :  1 = 0 ingen lineær sammenhæng H 1 :      lineær sammenhæng Følgende er eksempler, hvor H 0 accepteres. Y X Y X Y X Konstant Y Usystematisk variationIkke-lineær sammenhæng

SPSS Analyze → General Linear Models → Univariate… Kategoriske forklarende variable Skala forklarende variable

Eksempel Y :Forbrug af gas (gas) X :Udetemperatur (temp) Scatterplot → SPSS: Estimerede model: Både skæring (  ) og hældning (  1 ) er signifikante!