Opsamling Simpel/Multipel Lineær Regression Logistisk Regression

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Statistik Lektion 20 Ikke-parametriske metoder
Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Variansanalyse Modelkontrol
Statistik 1 – Lektion 5 By, energi & miljø, forår 2010 v. Morten Skou Nicolaisen.
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: Binær responsmodeller: Logit og probit1 Økonometri 1 Binær responsmodeller: Logit og probit 8. maj 2003.
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Ellen Holm, Forskningscafé
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Opsamling Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Opbygning af statistisk model Eksplorativ data-analyse Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Nej Ja Anvend modellen Fx. test og prædiktion

Simpel/Multipel Lineær Regression Model: Yi afhængige variabel for i’te observation. Xji j’te uafhængige/forklarende variable for i’te observation. εi fejled, uafhængige og normalfordelte med middelværdi 0 og varians σ2 (kort: iid N(0,σ2). β0,…,βk og σ2 er modellen parametre.

Simpel/Multipel Lineær Regression Model: Systematisk komponent + Stokastisk komponent Bemærk: Den betingede middelværdi for Yi:

Regressionslinje / -plan Den estimerede regression linje/plan: b0 er estimat af parameteren β0 b1 er estimat af β1, b2 er estimat af β2 osv. Residual: Sum of square errors Y { X

Model: ei x2 x1 y Estimeret model: Residual:

Mindste Kvadraters Metode SSE er et mål for den ”totale afstand” fra regressionslinjen/planet til observationerne. SSE er en funktion af b0, b1,…,bk: Mindste Kvadraters Metode: Vi vælger b0, b1,…,bk, så SSE er mindst mulig.

Total, forklaret og uforklaret variation Total variation = Uforklaret variation + Forklaret variation Gennemsnittet af alle observationer: Mean Squares:

Determinationskoefficienten Andelen af den totale variation der er forklaret: Pr definition: 0≤R2≤1. R2 vokser når antal forklarende variable (k) vokser. Justeret R2: Adj R2 vokser hvis ”fordelen ved en ekstra parameter er større end ulempen”.

F-Test H0: β1 =β2=…=βk=0 , dvs. der er ikke en lineær sammenhæng mellem Y og X’erne. H1: Der er en lineær sammenhæng mellem Y og mindst et af X’erne. Teststørrelse: Under H0 følger F en F-fordeling med k og n-(k+1) frihedsgrader. Store værdier af F er kritisk for H0.

F-Test Kritisk værdi ved signifikansniveau α: Eksempel: F(5,50) og α=0.05: F=2,72 F=1,52 P-værdi=0,20 P-værdi=0,03 α=0,05 α=0,05 Kritisk værdi: F0.05(5,50)=2,4

t-Test: Test af Parameter H0: βi =0, dvs. der er ikke en lineær sammenhæng mellem Y og Xi. H1: Der er en lineær sammenhæng mellem Y og Xi. Teststørrelse: Under H0 følger t en t-fordeling med n-(k+1) frihedsgrader. Værdier af t langt fra nul er kritiske for H0.

t-Test Kritisk værdi ved signifikansniveau α: Eksempel: t(45) og α=0.05: t=1,30 t=2,24 P-værdi=0,20 P-værdi=0,03 α=0,05 α=0,05 Kritisk værdi: +/- t0.025(45)= +/- 2,01

Partiel F-Test Sammenligne en Fuld model med k forklarende variable, med en Reduceret model, der indeholder r færre forklarende variable. H0: Den fulde model er ikke ”besværet værd”. H1: Jo, det er den. Teststørrelse: Under H0 følger F en F-fordeling med r og n-(k+1) frihedsgrader. Store værdier af F er kritisk for H0.

Dummy Variable En kategorisk forklarende variabel X med r niveauer omkodes til (r-1) 0/1 dummy variable X1,…,Xr-1. Hver dummy variabel kodes som

Modelkontrol Vi skal kontrollere følgende antagelser Y afhænger lineært af Xi εi’erne er normalfordelte med middelværdi 0 og fælles varians σ2 indbyrdes uafhængige og uafhængig af Yi og Xi. Vigtigste ingrediens: Residualer ei. Grafiske checks: Scatterplots, Residualplots, Histogrammer og Normalfordelingsplot (Q-Q-plot).

Residualplot Residualer Residualer ٪ √ Homoskedastisk: Residualerne ser ud til at variere lige meget for alle x eller . Desuden er residualerne ufahængige af hinanden og x. Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer Residualer ٪ ٪ Tid Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

Check for normalfordeling Histogram og Q-Q plot Q-Q plot: prikkerne skal sno sig usystematisk omkring den rette linie.

Check for Uafhængighed Som supplement til residual-plot kan man udføre formelle test for uafhængighed. Hvis observationer er indsamlet over tid er et Durbin-Watson test for auto-korrelerede residualer på sin plads. Et Run Test, hvor man ser på residualernes fortegn. Problemer med heteroskedatiske residualer, kan til tider afhjælpes med en transformation, fx ved at erstatte Y med √Y.

Modelsøgning Backward søgning: Vi starter med den fulde model Udfør t-test for alle β parametre i modellen. Den parameter med højst P-værdi over 0,05 fjernes fra modellen. Gentages indtil alle P-værdier er under 0,05. Bemærk: P-værdier ændrer sig når parametre/variable fjernes fra modellen – typisk nedad. Dette gælder specielt hvis en eller flere forklarende variable er multi-kolineære (fx ancenitet og alder)

Modelsøgning Stepwise søgning: Kombinerer Forward og Backward søgning. Forward søgning: Vi starter med den tomme model Udfører et t-test for alle parametre der ikke er i modellen. Den parameter med lavest P-værdi under 0,05 tilføjes. Fortsætter indtil alle parameter har en P-værdi over 0,05. Stepwise søgning: Kombinerer Forward og Backward søgning.

Multipel Lineær Regression: Udvidelser Polynomiel Regression: Fx: Dette er stadig en lineær regression. For nogle ikke-lineære modeller er det muligt at transformere disse, så der fremkommer en lineær model.

Og Meget Mere… Prædiktion Konfidensintervaller Korrelation …

Logistisk Regression Afhængig 0/1 variabel Yi : 1 = ”Succes” og 0 = ”Fiasko” pi = P(Yi=1) 1-pi = P(Yi=0) Model: Omskrivning: Hvis vi isolerer pi ovenfor får vi:

Fortolkning af Odds Odds: Jo mindre odds jo mindre p. Hvis odds’et er p/(1-p) = 4, så betyder det at sandsynligheden for ”Succes” er 4 gange større end for ”Fiasko”. Af logit modellen følger at Hvad sker der med odds’et når X vokser med 1: Odds’et ændres med faktor når X vokser med 1.

Logistisk Regression: Test Vi ønsker at teste hypotesen H0: β1=0 H1: β1≠0 Teststørrelse: Kaldes Wald teststørrelsen. Under H0 følger W en c2 (”chi-i-anden”) fordeling med 1 frihedsgrad. Store værdier af W er kritiske for H0.

Ikke-parametriske Metoder Karakteriseret ved ikke at indeholde antagelser om bestemte fordelinger, fx normalfordelte populationer.

Ikke Parametriske Test Run Test: Tester om en sekvens af fx K’er og P’er er tilfældig. Testen baserer sig på antallet af runs af K’er og P’er. Mann-Whitney U Test: Test for om to fordelinger er ens. Små of store værdier af U er kritiske for H0. Wilcoxon Singed-Rank Test: Et alternativ til parret t-test. Baseret på rank af forskelle. Kruskal-Wallis Test: Ikke parametrisk alternativ til en-sidet variansanalyse (ANOVA). Testet baserer sig på ranks.

Chi-i-anden Teststørrelse Oi er faktiske antal observationer i i’te kategori og Ei er det forventede antal observationer under H0. Chi-i-anden teststørrelsen er givet ved Når stikprøvestørrelsen vokser og k fastholder, så nærmer X2 sig en Chi-i-anden fordeling. Bemærk: For at chi-i-anden approksimationen er god skal alle Ei være mindst 5, dvs. vi forventer mindst 5 observationer i hver kategori.

Kontingenstabeller Udgangspunkt er to kategoriske variable A har r kategorier {1,2,…,r } B har c kategorier {1,2,…,c} Tilsvarende kontingenstabel har r rækker og c kolonner. Hver celle (i,j) i tabellen indeholder antal af observationer Oij, hvor A = i og B = j. Ri er rækkesummen: summen af observationer i i’te række. Ri er samtidig antal observationer, hvor A=i. Cj er kolonnesummen: summen af observationer i j’te kolonne. Cj er samtidig antal observationer, hvor B=j.

Kontingenstabel: Test for Uafhængighed H0: Kategoriske variable A og B er uafhængige. H1: A og B er afhængige. Under H0 er det forventede antal observationer i celle (i,j) givet ved Eij=RiCj / n. Teststørrelse: Under H0 følger X2 en c2-fordeling med (1-c)(1-r) frihedsgrader. Store værdier af X2 er kritisk for H0.