Statistik Lektion 18 Multipel Linear Regression

Statistik Lektion 18 Multipel Linear Regression
Repetition Partiel F-test Modelsøgning Logistisk Regression

Test for en eller alle parametre
I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende test: H0: β1= β2= β3 =…= βk =0 dvs. modellen ikke er ”besværet værd”. Til dette anvendes et F-test. H0: βj=0 dvs. der er ingen lineær sammenhæng mellem Y og Xj. Vi sammenligner to modeller der adskiller sig ved om Xj er med eller ej. Her anvendes et t-test.

Test for flere parametre - Partiel F-test
Med fuld model menes en model, der indeholder alle forklarende variable af interesse. En reduceret model indeholder kun et udvalg (eller slet ingen) forklarende variable fra den fulde model. Ved et partielt F-test sammenlignes den fulde og den reducerede model.

Eksempel: Eksport til Fjernøsten
Vi vil sammenligne følgende fulde og reducerede modeller Fulde model: Export M1 Lend Price Exch. Reducerede model: Er det ”besværet værd”, at have x2 og x4 med?

H0: β2 = β4 = 0 (givet at X1 og X3 er i modellen)
Det partielle F-test H0: β2 = β4 = 0 (givet at X1 og X3 er i modellen) H1: β2 og β4 er ikke begge nul. Teststørrelse for partielt F-test: hvor SSER og SSEF er ’sum of squares for errors’ for hhv. den reducerede og den fulde model. MSEF = SSEF/[n - k - 1)] er ’mean square error’. k er antal parameter i den fulde model r antal parametre vi forsøger at ”fjerne” (2 i eks.).

Export M1 Lend Price Exch. Fulde model: Reducerede model: SSEF = 6,990 SSER = 6,996 MSEF = 0,113

Er det ”besværet værd”, at have x2 og x3 med? Det partielle F-test H0: β2=β4=0 (givet at X1 og X2 er i modellen) H1: β2 og β4 er ikke begge nul. Testen er ikke signifikant, dvs. vi accepterer H0 hypotesen, dvs. den fulde model er ikke besværet værd.

Bemærkninger Partielle F-test, der kun omhandler en enkel parameter er ækvivalente med et t-test. Bruger man ’linear regression’ funktionen i SPSS, så er der kun t-test i sving. En kategorisk variabel med r niveauer, omkodes til (r-1) 0/1 dummy variable. En test for betydningen af den kvalitative variabel svarer til et partielt F-test, hvor (r-1) variable fjernes. Fx. følgende model fra tidligere: Test for effekten af indkomst på vægt: Partielt F-test af to parametre: H0: bHøj = bMellem = 0. Dummy variable

Modelsøgning En statistiske analyse involverer ofte et stort antal forklarende variable. For at få overblik over, hvilke forklarende variable, der har betydning for den afhængige variabel udføres en modelsøgning. I en modelsøgning, søger man en model, der kun indeholder de forklarende variable, der har en reel betydning for den afhængige variabel. Der findes et utal af måder at udføre modelsøgning. De mest almindelige er…

Modelsøgning: Prøv alle muligheder
Vi udfører en regression på alle tænkelige kombinationer af forklarende variable. Har vi k forklarende variable giver det 2k forskellige modeller. Ved k=4 forklarende variable har vi allerede 24=16 modeller. Vi udvælger vores model blandt de 2k modeller fx. den med største adjusted R2 eller mindste MSE.

Modelsøgning: Backward søgning
Start med en model, hvor alle forklarende variable af interesse er inkluderet. For alle variable fortager vi et partielt F-test for den tilsvarende parameter. Den variabel med højst p-værdi over fx 0.05 fjernes fra modellen. I den reducerede model foretages et partielt F-test for hver af de tilbageværende variable. Igen fjernes den variabel, der har højst p-værdi over 0.05. Dette gentages indtil alle tilbageværende variable er signifikante, dvs. deres partielle F-test har p-værdier under 0.05.

Backward: Eksempel Den fulde model (start-model):
Fjerner ’Lend’. Reducerede model: Fjern ’Exchange’. Reduceret model (slut-model): Støreste p-værdi over 0.05 Støreste p-værdi over 0.05 Ingen p-værdi over 0.05

Modelsøgning: Forward søgning
Vi starter med en ”tom” model – dvs. uden forklarende variable. Dernæst tilføjer vi den forklarende variabel, hvor det tilhørende partielle F-test er mindst p-vædi, dog under en given grænse, fx 0.10. I den udvidede model tilføjes den variabel blandt de resterende, hvor det tilsvarende partielle F-test har mindst p-værdi under fx 0.10. Fortsætter indtil ingen af de tilbageværende variable har en F-test med p-værdi over 0.10.

Modelsøgning: Stepwise
Vi starter med den tomme model. Vi tilføjer den variabel, hvor det tilhørende partielle F-test har mindst p-værdi under PIN, fx 0.05. Vi tilføjer den mest signifikante variabel blandt de tilbageværende, med p-værdi under PIN. Vi veksler nu mellem at fjerne den mindst signifikante (højst p-værdi over POUT) og tilføje en den mest signifikante variabel (lavest p-værdi under PIN). I hvert trin skal vi beregne partielle F-test for alle variable. Bemærk: Kræver PIN ≤ POUT.

Modelsøgning i SPSS I ’Linear Regression’ kan man i menuen ’Method’ bl.a. vælge mellem Enter (Uden søgning) Stepwise Backward Forward ’Independent’ indeholder variable, der skal indgå i model-søgningen.

Illustration af algoritmer
Forward algoritmen Start: Den tomme model ▪Test for at tilføje Trin M1 Lend Price Exchange 1 2 Tomme model Backward algoritmen Start: Den fulde model ▪Test for at fjerne Trin M1 Lend Price Exchange 1 2 Fulde model Stepwise algoritmen Start: Den tomme model ▪Test for at fjerne/tilføje Trin M1 Lend Price Exchange 1 2 3 (potentielt)

SPSS detaljer for forward algoritmen
Model 1 inkluderer M1 Model 2 inkluderer M1 og Price Matchende rammer til højre illustrerer hvilke P-værdier, der ”konkurrerede” om pladsen i hvert trin.

Logistisk Regression

Logistisk Regression Setup: Y: Afhængig dikotom variabel
Fx Ja/Nej , Død/Levende… X: Forklarende variabel, skala eller kategorisk Fx Alder, Behandling, Dose… Spørgsmål: Antag Y  { Ja, Nej } Hvad er P(Y=Ja|X=x) ? Dvs. hvad er den betingede sandsynlighed for at svare ”Ja” givet X=x?

Eksempel: Myg og Gift Man har undersøgt effekten af myggegift ved forskellige doser. Ved det i’te eksperiment har man noteret: Xi Anvendte dose ni Antal levende myg før ”gift-angreb” di Antal døde myg efter ”gift-angreb” Lad p = p(x) = P(Død|X=dose) betegne sandsynligheden for, at en myg dør ved en gift-dose x.

Eksempel Fortsat For hver dose kan vi estimere døds-sandsynligheden:
Data som tabel: Bemærk: Sandsynligheden for at dø øges med dosen! Dose (xi) 1 2 3 4 5 6 7 8 9 10 Antal (ni) 13 26 33 29 22 38 20 28 Døde (di) 18 15 25 27 pi 0.06 0.034 0.207 0.273 0.474 0.759 0.750 0.962 0.964

Estimerede sandsynligheder
Mål: Formuler en model for sammenhængen mellem p og x. Dvs. en model for sammenhængen mellem sandsynligheden for, at en myg dør og gift-dosen.

Dårlig Ide… Antag at sammenhængen er lineær: Estimerede sammenhæng:
Der er et lille problem… Hint: Hvad er sandsynligheden for død ved dose = 1?

Generelt Setup Data er på individ niveau.
Vi har data for hver myg – ikke kun totale antal. Den afhængige variabel omkodes til en binær (0/1) variabel: Fx. hvis den i’te myg er… Død ⇒ Yi = 1 Levende ⇒ Yi = 0 Mål: Finde model for P(Y = 1 | X = x ) Notation: p = P(Y = 1 | X = x )

Odds For en sandsynlighed p gælder: Definition af Odds: Der gælder:
Fortolkning: Odds’et angiver hvor mange gange mere sandsynligt Y =1 er i forhold til Y = 0.

Odds: Eksempel Ved dose X = 7 har vi (estimeret) sandsynlighed for at dø p = Det (estimerede) Odds er Dvs. sandsynligheden for at dø er gange større end sandsynligheden for at overleve.

Logit Difinition: Logit er den naturlige logaritme af Odds’et :
For logit gælder

God Ide: Logistisk Regression
Antag at sammenhængen er Logit-lineær: Dette er logistisk regression. Bemærk: Eftersom Logit kan antage alle reelle værdier, er der ikke problemer med at ”linjen stikker udenfor” definitionsområdet!

SPSS og Logistisk Regression
Vi antager at vi for den i’te myg har notoret Yi = Vital status ( 0 = Levende, 1 = Død ) Xi = Dose ( 0 til 10 ) Model:

Scatter-plot af Data… Ikke til megen nytte…

SPSS og Logistisk Regression
SPSS: Analyze → Regression → Binary Logistic Estimerede model: Denne ”kasse” fortæller, at det er sandsynligheden for død vi modellerer. Død kodes som Y = 1

Estimerede Model og Sandsynligeheder
Estimerede sammenhæng: For hver p har vi udregnet Logit(p) = ln( p / (1-p) ): Bemærk: Når p = 0, så er Logit(p) ikke defineret.

Omskrivninger Vi har Vi kan isolere Odds’et:

Fortolkning Når vi øger X med én:
Dvs. når x øges med en ændres Odds’et med en faktor . Eksempel: b1 = Når vi øger dosen med én så øges Odds’et for at dø med en faktor e0.846 = 2.33.

Mere Omskrivning Vi har Isolér p :
Dvs. p (sandsynligheden for at dø) er en ”kompliceret” funktion af dosen x.

Estimerede Sandsynligheder

Statistik Lektion 18 Multipel Linear Regression

Lignende præsentationer

Præsentationer af emnet: "Statistik Lektion 18 Multipel Linear Regression"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Statistik Lektion 18 Multipel Linear Regression

Lignende præsentationer

Præsentationer af emnet: "Statistik Lektion 18 Multipel Linear Regression"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback