Statistik Lektion 18 Multipel Linear Regression

Slides:



Advertisements
Lignende præsentationer
Dummyvariabler 13. oktober 2006
Advertisements

Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Anvendt Statistik Lektion 5
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Grundlæggende teoretisk statistik
KM2: F171 Kvantitative metoder 2 Dummyvariabler 2. april 2007.
Variansanalyse Modelkontrol
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Statistik II 5. Lektion Log-lineære modeller.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Anvendt Statistik Lektion 9
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Økonometri 1: Dummy variable1 Økonometri 1 Dummy variable 24. marts 2003.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Kvalitative variable 8. marts 2006.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 21. oktober 2004.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 15. marts 2006.
Økonometri – lektion 6 Multipel Lineær Regression
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Statistik PM5 Indhold: statistiske metoder til at analysere kategoriske data Logistisk regression Loglineære modeller I dag: repetition af lineær regression.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Logistisk regression - fortsat
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Logistisk regression –Odds/Odds ratio Probit model Fortolkning udfra latent variabel.
Ellen Holm, Forskningscafé
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik Lektion 18 Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression

Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende test: H0: β1= β2= β3 =…= βk =0 dvs. modellen ikke er ”besværet værd”. Til dette anvendes et F-test. H0: βj=0 dvs. der er ingen lineær sammenhæng mellem Y og Xj. Vi sammenligner to modeller der adskiller sig ved om Xj er med eller ej. Her anvendes et t-test.

Test for flere parametre - Partiel F-test Med fuld model menes en model, der indeholder alle forklarende variable af interesse. En reduceret model indeholder kun et udvalg (eller slet ingen) forklarende variable fra den fulde model. Ved et partielt F-test sammenlignes den fulde og den reducerede model.

Eksempel: Eksport til Fjernøsten Vi vil sammenligne følgende fulde og reducerede modeller Fulde model: Export M1 Lend Price Exch. Reducerede model: Er det ”besværet værd”, at have x2 og x4 med?

H0: β2 = β4 = 0 (givet at X1 og X3 er i modellen) Det partielle F-test H0: β2 = β4 = 0 (givet at X1 og X3 er i modellen) H1: β2 og β4 er ikke begge nul. Teststørrelse for partielt F-test: hvor SSER og SSEF er ’sum of squares for errors’ for hhv. den reducerede og den fulde model. MSEF = SSEF/[n - k - 1)] er ’mean square error’. k er antal parameter i den fulde model r antal parametre vi forsøger at ”fjerne” (2 i eks.).

Eksempel: Eksport til Fjernøsten Export M1 Lend Price Exch. Fulde model: Reducerede model: SSEF = 6,990 SSER = 6,996 MSEF = 0,113

Eksempel: Eksport til Fjernøsten Er det ”besværet værd”, at have x2 og x3 med? Det partielle F-test H0: β2=β4=0 (givet at X1 og X2 er i modellen) H1: β2 og β4 er ikke begge nul. Testen er ikke signifikant, dvs. vi accepterer H0 hypotesen, dvs. den fulde model er ikke besværet værd.

Bemærkninger Partielle F-test, der kun omhandler en enkel parameter er ækvivalente med et t-test. Bruger man ’linear regression’ funktionen i SPSS, så er der kun t-test i sving. En kategorisk variabel med r niveauer, omkodes til (r-1) 0/1 dummy variable. En test for betydningen af den kvalitative variabel svarer til et partielt F-test, hvor (r-1) variable fjernes. Fx. følgende model fra tidligere: Test for effekten af indkomst på vægt: Partielt F-test af to parametre: H0: bHøj = bMellem = 0. Dummy variable

Modelsøgning En statistiske analyse involverer ofte et stort antal forklarende variable. For at få overblik over, hvilke forklarende variable, der har betydning for den afhængige variabel udføres en modelsøgning. I en modelsøgning, søger man en model, der kun indeholder de forklarende variable, der har en reel betydning for den afhængige variabel. Der findes et utal af måder at udføre modelsøgning. De mest almindelige er…

Modelsøgning: Prøv alle muligheder Vi udfører en regression på alle tænkelige kombinationer af forklarende variable. Har vi k forklarende variable giver det 2k forskellige modeller. Ved k=4 forklarende variable har vi allerede 24=16 modeller. Vi udvælger vores model blandt de 2k modeller fx. den med største adjusted R2 eller mindste MSE.

Modelsøgning: Backward søgning Start med en model, hvor alle forklarende variable af interesse er inkluderet. For alle variable fortager vi et partielt F-test for den tilsvarende parameter. Den variabel med højst p-værdi over fx 0.05 fjernes fra modellen. I den reducerede model foretages et partielt F-test for hver af de tilbageværende variable. Igen fjernes den variabel, der har højst p-værdi over 0.05. Dette gentages indtil alle tilbageværende variable er signifikante, dvs. deres partielle F-test har p-værdier under 0.05.

Backward: Eksempel Den fulde model (start-model): Fjerner ’Lend’. Reducerede model: Fjern ’Exchange’. Reduceret model (slut-model): Støreste p-værdi over 0.05 Støreste p-værdi over 0.05 Ingen p-værdi over 0.05

Modelsøgning: Forward søgning Vi starter med en ”tom” model – dvs. uden forklarende variable. Dernæst tilføjer vi den forklarende variabel, hvor det tilhørende partielle F-test er mindst p-vædi, dog under en given grænse, fx 0.10. I den udvidede model tilføjes den variabel blandt de resterende, hvor det tilsvarende partielle F-test har mindst p-værdi under fx 0.10. Fortsætter indtil ingen af de tilbageværende variable har en F-test med p-værdi over 0.10.

Modelsøgning: Stepwise Vi starter med den tomme model. Vi tilføjer den variabel, hvor det tilhørende partielle F-test har mindst p-værdi under PIN, fx 0.05. Vi tilføjer den mest signifikante variabel blandt de tilbageværende, med p-værdi under PIN. Vi veksler nu mellem at fjerne den mindst signifikante (højst p-værdi over POUT) og tilføje en den mest signifikante variabel (lavest p-værdi under PIN). I hvert trin skal vi beregne partielle F-test for alle variable. Bemærk: Kræver PIN ≤ POUT.

Modelsøgning i SPSS I ’Linear Regression’ kan man i menuen ’Method’ bl.a. vælge mellem Enter (Uden søgning) Stepwise Backward Forward ’Independent’ indeholder variable, der skal indgå i model-søgningen.

Illustration af algoritmer Forward algoritmen Start: Den tomme model ▪Test for at tilføje Trin M1 Lend Price Exchange 1 2 Tomme model Backward algoritmen Start: Den fulde model ▪Test for at fjerne Trin M1 Lend Price Exchange 1 2 Fulde model Stepwise algoritmen Start: Den tomme model ▪Test for at fjerne/tilføje Trin M1 Lend Price Exchange 1 2 3 (potentielt)

SPSS detaljer for forward algoritmen Model 1 inkluderer M1 Model 2 inkluderer M1 og Price Matchende rammer til højre illustrerer hvilke P-værdier, der ”konkurrerede” om pladsen i hvert trin.

Logistisk Regression

Logistisk Regression Setup: Y: Afhængig dikotom variabel Fx Ja/Nej , Død/Levende… X: Forklarende variabel, skala eller kategorisk Fx Alder, Behandling, Dose… Spørgsmål: Antag Y  { Ja, Nej } Hvad er P(Y=Ja|X=x) ? Dvs. hvad er den betingede sandsynlighed for at svare ”Ja” givet X=x?

Eksempel: Myg og Gift Man har undersøgt effekten af myggegift ved forskellige doser. Ved det i’te eksperiment har man noteret: Xi Anvendte dose ni Antal levende myg før ”gift-angreb” di Antal døde myg efter ”gift-angreb” Lad p = p(x) = P(Død|X=dose) betegne sandsynligheden for, at en myg dør ved en gift-dose x.

Eksempel Fortsat For hver dose kan vi estimere døds-sandsynligheden: Data som tabel: Bemærk: Sandsynligheden for at dø øges med dosen! Dose (xi) 1 2 3 4 5 6 7 8 9 10 Antal (ni) 13 26 33 29 22 38 20 28 Døde (di) 18 15 25 27 pi 0.06 0.034 0.207 0.273 0.474 0.759 0.750 0.962 0.964

Estimerede sandsynligheder Mål: Formuler en model for sammenhængen mellem p og x. Dvs. en model for sammenhængen mellem sandsynligheden for, at en myg dør og gift-dosen.

Dårlig Ide… Antag at sammenhængen er lineær: Estimerede sammenhæng: Der er et lille problem… Hint: Hvad er sandsynligheden for død ved dose = 1?

Generelt Setup Data er på individ niveau. Vi har data for hver myg – ikke kun totale antal. Den afhængige variabel omkodes til en binær (0/1) variabel: Fx. hvis den i’te myg er… Død ⇒ Yi = 1 Levende ⇒ Yi = 0 Mål: Finde model for P(Y = 1 | X = x ) Notation: p = P(Y = 1 | X = x )

Odds For en sandsynlighed p gælder: Definition af Odds: Der gælder: Fortolkning: Odds’et angiver hvor mange gange mere sandsynligt Y =1 er i forhold til Y = 0.

Odds: Eksempel Ved dose X = 7 har vi (estimeret) sandsynlighed for at dø p = 0.759. Det (estimerede) Odds er Dvs. sandsynligheden for at dø er 3.149 gange større end sandsynligheden for at overleve.

Logit Difinition: Logit er den naturlige logaritme af Odds’et : For logit gælder

God Ide: Logistisk Regression Antag at sammenhængen er Logit-lineær: Dette er logistisk regression. Bemærk: Eftersom Logit kan antage alle reelle værdier, er der ikke problemer med at ”linjen stikker udenfor” definitionsområdet!

SPSS og Logistisk Regression Vi antager at vi for den i’te myg har notoret Yi = Vital status ( 0 = Levende, 1 = Død ) Xi = Dose ( 0 til 10 ) Model:

Scatter-plot af Data… Ikke til megen nytte…

SPSS og Logistisk Regression SPSS: Analyze → Regression → Binary Logistic Estimerede model: Denne ”kasse” fortæller, at det er sandsynligheden for død vi modellerer. Død kodes som Y = 1

Estimerede Model og Sandsynligeheder Estimerede sammenhæng: For hver p har vi udregnet Logit(p) = ln( p / (1-p) ): Bemærk: Når p = 0, så er Logit(p) ikke defineret.

Omskrivninger Vi har Vi kan isolere Odds’et:

Fortolkning Når vi øger X med én: Dvs. når x øges med en ændres Odds’et med en faktor . Eksempel: b1 = 0.846 Når vi øger dosen med én så øges Odds’et for at dø med en faktor e0.846 = 2.33.

Mere Omskrivning Vi har Isolér p : Dvs. p (sandsynligheden for at dø) er en ”kompliceret” funktion af dosen x.

Estimerede Sandsynligheder