Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Ikke-parametriske Metoder Chi-i-anden Test

Opbygning af statistisk model
Eksplorativ data-analyse Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen Fx. test og prædiktion

Simpel/Multipel Lineær Regression
Model: Yi afhængige variabel for i’te observation. Xji j’te uafhængige/forklarende variable for i’te observation. εi fejled, uafhængige og normalfordelte med middelværdi 0 og varians σ2 (kort: iid N(0,σ2). β0,…,βk og σ2 er modellen parametre.

Simpel/Multipel Lineær Regression
Model: Systematisk komponent + Stokastisk komponent Bemærk: Den betingede middelværdi for Yi:

Regressionslinje / -plan
Den estimerede regression linje/plan: b0 er estimat af parameteren β0 b1 er estimat af β1, b2 er estimat af β2 osv. Residual: Sum of square errors Y { X

Model: ei x2 x1 y Estimeret model: Residual:

Mindste Kvadraters Metode
SSE er et mål for den ”totale afstand” fra regressionslinjen/planet til observationerne. SSE er en funktion af b0, b1,…,bk: Mindste Kvadraters Metode: Vi vælger b0, b1,…,bk, så SSE er mindst mulig.

Total, forklaret og uforklaret variation
Total variation = Uforklaret variation + Forklaret variation Gennemsnittet af alle observationer: Mean Squares:

Determinationskoefficienten
Andelen af den totale variation der er forklaret: Pr definition: 0≤R2≤1. R2 vokser når antal forklarende variable (k) vokser. Justeret R2: Adj R2 vokser hvis ”fordelen ved en ekstra parameter er større end ulempen”.

F-Test H0: β1 =β2=…=βk=0 , dvs. der er ikke en lineær sammenhæng mellem Y og X’erne. H1: Der er en lineær sammenhæng mellem Y og mindst et af X’erne. Teststørrelse: Under H0 følger F en F-fordeling med k og n-(k+1) frihedsgrader. Store værdier af F er kritisk for H0.

F-Test Kritisk værdi ved signifikansniveau α:
Eksempel: F(5,50) og α=0.05: F=2,72 F=1,52 P-værdi=0,20 P-værdi=0,03 α=0,05 α=0,05 Kritisk værdi: F0.05(5,50)=2,4

t-Test: Test af Parameter
H0: βi =0, dvs. der er ikke en lineær sammenhæng mellem Y og Xi. H1: Der er en lineær sammenhæng mellem Y og Xi. Teststørrelse: Under H0 følger t en t-fordeling med n-(k+1) frihedsgrader. Værdier af t langt fra nul er kritiske for H0.

t-Test Kritisk værdi ved signifikansniveau α:
Eksempel: t(45) og α=0.05: t=1,30 t=2,24 P-værdi=0,20 P-værdi=0,03 α=0,05 α=0,05 Kritisk værdi: +/- t0.025(45)= +/- 2,01

Partiel F-Test Sammenligne en Fuld model med k forklarende variable, med en Reduceret model, der indeholder r færre forklarende variable. H0: Den fulde model er ikke ”besværet værd”. H1: Jo, det er den. Teststørrelse: Under H0 følger F en F-fordeling med r og n-(k+1) frihedsgrader. Store værdier af F er kritisk for H0.

Dummy Variable En kategorisk forklarende variabel X med r niveauer omkodes til (r-1) 0/1 dummy variable X1,…,Xr-1. Hver dummy variabel kodes som

Modelkontrol Vi skal kontrollere følgende antagelser
Y afhænger lineært af Xi εi’erne er normalfordelte med middelværdi 0 og fælles varians σ2 indbyrdes uafhængige og uafhængig af Yi og Xi. Vigtigste ingrediens: Residualer ei. Grafiske checks: Scatterplots, Residualplots, Histogrammer og Normalfordelingsplot (Q-Q-plot).

Residualplot Residualer Residualer ٪ √ Homoskedastisk: Residualerne ser ud til at variere lige meget for alle x eller . Desuden er residualerne ufahængige af hinanden og x. Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer Residualer ٪ ٪ Tid Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

Check for normalfordeling
Histogram og Q-Q plot Q-Q plot: prikkerne skal sno sig usystematisk omkring den rette linie.

Check for Uafhængighed
Som supplement til residual-plot kan man udføre formelle test for uafhængighed. Hvis observationer er indsamlet over tid er et Durbin-Watson test for auto-korrelerede residualer på sin plads. Et Run Test, hvor man ser på residualernes fortegn. Problemer med heteroskedatiske residualer, kan til tider afhjælpes med en transformation, fx ved at erstatte Y med √Y.

Modelsøgning Backward søgning: Vi starter med den fulde model
Udfør t-test for alle β parametre i modellen. Den parameter med højst P-værdi over 0,05 fjernes fra modellen. Gentages indtil alle P-værdier er under 0,05. Bemærk: P-værdier ændrer sig når parametre/variable fjernes fra modellen – typisk nedad. Dette gælder specielt hvis en eller flere forklarende variable er multi-kolineære (fx ancenitet og alder)

Modelsøgning Stepwise søgning: Kombinerer Forward og Backward søgning.
Forward søgning: Vi starter med den tomme model Udfører et t-test for alle parametre der ikke er i modellen. Den parameter med lavest P-værdi under 0,05 tilføjes. Fortsætter indtil alle parameter har en P-værdi over 0,05. Stepwise søgning: Kombinerer Forward og Backward søgning.

Multipel Lineær Regression: Udvidelser
Polynomiel Regression: Fx: Dette er stadig en lineær regression. For nogle ikke-lineære modeller er det muligt at transformere disse, så der fremkommer en lineær model.

Og Meget Mere… Prædiktion Konfidensintervaller Korrelation …

Logistisk Regression Afhængig 0/1 variabel Yi : 1 = ”Succes” og 0 = ”Fiasko” pi = P(Yi=1) pi = P(Yi=0) Model: Omskrivning: Hvis vi isolerer pi ovenfor får vi:

Fortolkning af Odds Odds: Jo mindre odds jo mindre p.
Hvis odds’et er p/(1-p) = 4, så betyder det at sandsynligheden for ”Succes” er 4 gange større end for ”Fiasko”. Af logit modellen følger at Hvad sker der med odds’et når X vokser med 1: Odds’et ændres med faktor når X vokser med 1.

Logistisk Regression: Test
Vi ønsker at teste hypotesen H0: β1=0 H1: β1≠0 Teststørrelse: Kaldes Wald teststørrelsen. Under H0 følger W en c2 (”chi-i-anden”) fordeling med 1 frihedsgrad. Store værdier af W er kritiske for H0.

Ikke-parametriske Metoder
Karakteriseret ved ikke at indeholde antagelser om bestemte fordelinger, fx normalfordelte populationer.

Ikke Parametriske Test
Run Test: Tester om en sekvens af fx K’er og P’er er tilfældig. Testen baserer sig på antallet af runs af K’er og P’er. Mann-Whitney U Test: Test for om to fordelinger er ens. Små of store værdier af U er kritiske for H0. Wilcoxon Singed-Rank Test: Et alternativ til parret t-test. Baseret på rank af forskelle. Kruskal-Wallis Test: Ikke parametrisk alternativ til en-sidet variansanalyse (ANOVA). Testet baserer sig på ranks.

Chi-i-anden Teststørrelse
Oi er faktiske antal observationer i i’te kategori og Ei er det forventede antal observationer under H0. Chi-i-anden teststørrelsen er givet ved Når stikprøvestørrelsen vokser og k fastholder, så nærmer X2 sig en Chi-i-anden fordeling. Bemærk: For at chi-i-anden approksimationen er god skal alle Ei være mindst 5, dvs. vi forventer mindst 5 observationer i hver kategori.

Kontingenstabeller Udgangspunkt er to kategoriske variable
A har r kategorier {1,2,…,r } B har c kategorier {1,2,…,c} Tilsvarende kontingenstabel har r rækker og c kolonner. Hver celle (i,j) i tabellen indeholder antal af observationer Oij, hvor A = i og B = j. Ri er rækkesummen: summen af observationer i i’te række. Ri er samtidig antal observationer, hvor A=i. Cj er kolonnesummen: summen af observationer i j’te kolonne. Cj er samtidig antal observationer, hvor B=j.

Kontingenstabel: Test for Uafhængighed
H0: Kategoriske variable A og B er uafhængige. H1: A og B er afhængige. Under H0 er det forventede antal observationer i celle (i,j) givet ved Eij=RiCj / n. Teststørrelse: Under H0 følger X2 en c2-fordeling med (1-c)(1-r) frihedsgrader. Store værdier af X2 er kritisk for H0.

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Lignende præsentationer

Præsentationer af emnet: "Opsamling Simpel/Multipel Lineær Regression Logistisk Regression"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Lignende præsentationer

Præsentationer af emnet: "Opsamling Simpel/Multipel Lineær Regression Logistisk Regression"— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback