Statistik II Lektion 5 Modelkontrol

Slides:



Advertisements
Lignende præsentationer
Statistik Lektion 18 Multipel Linear Regression
Advertisements

Anvendt Statistik Lektion 4
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 6
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: Dummy variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II 5. Lektion Log-lineære modeller.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 7. april 2003.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
KM2: F191 Kvantitative metoder 2 Heteroskedasticitet 16. april 2007.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Heteroskedaticitet (Specifikation og dataproblemer) 2. november 2005.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Statistik Lektion 8 Test for ens varians.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Økonometri 1: Dummyvariabler1 Økonometri 1 Dummyvariabler 12. oktober 2005.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
Lineær og logistisk regression - fortsat
Log-lineære modeller ● Analyse af symmetriske sammenhænge mellem kategoriske variable. ● Ordinal information ignoreres.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik II Lektion 5 Modelkontrol Modelsøgning Større eksempel

Opbygning af statistisk model Eksplorativ data-analyse Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Nej Ja Herunder test, modelsøgning, prædiktioner og fortolkninger. Anvend modellen

Generel Lineær Model Y afhængig skala variabel x1,…,xk forklarende variable, skala eller binære Model: hvor fejlleddet e er normalfordelt med middelværdi 0 og varians s2, e ~N(0, s2). Middelværdien for Y givet x = (x1,…,xk) er Dvs. regressions-”linjen” angiver middelværdien.

Generel Lineær Model Mere præcist: i’te observation yi ud af n er givet ved xj,i er j’te forklarende variabel for den i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2) Systematisk del Tilfældig del Idependent and Identically Distributed - IID

Estimater og prædiktion Lad a være et estimat af a Lad b1 være et estimat af b1 , osv… Definer den prædikterede værdi som Dvs. er et estimat af middelværdien

Residual I den sande model har vi Det kan vi skrive om til Residualet, ei, er derfor et estimat af fejlleddet: Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).

Estimation Vores estimater, a, b1, b2,…, bk, er fundet ved at minimere summen af de kvadrerede residualer: Metoden kaldes mindste kvadraters metode SSE står for Sum of Squared Errors SSE angiver også størrelsen af den uforklarede variation i data.

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! Antagelse: Middelværdi-strukturen i modellen er Kan være svært at checke direkte, hvis vi har mange forklarende variable. Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne. Grafisk check: plot af af ei mod .

Modelkontrol Antagelse: Fejlleddene e1,…, en uafhænige? Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne. Grafisk check: Et plot at ei mod eller x. Antagelse: Fejlleddene e1,…, en ~ N(0,s2)? Hvis sandt regner vi med at ei’erne er cirka normalfordelte. Et plot at ei mod kan afsløre om variansen er konstant (homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om ei’erne er normalfordelte

Residualplot Residualer √ Residualer ٪ Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ). Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer ٪ ٪ Residualer Tid Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

Eksempel: Salg og Reklame Data: n = 30 par af observationer (xi,yi) yi = Ugentlige salg xi = Ugentlige reklame-budget Model: Hvor ei ~N(0,s2)

Residualer i SPSS I ’Linear Regression’ vinduet vælges ’Save…’ I ’Save’ vinduet vælges ’Unstandardized’ både under ’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) . Derefter kan man fx lave scatter plots.

Scatter plot af residualer (ei’erne) mod ’højde’ (xi’erne) (øverst) residualer (ei’erne) mod prædiktionerne ( ’erne) (nederst). Ser jo ganske usystematisk ud!

Histogram af residualer Histogrammet burde ligne en normalfordeling. Det gør det også sådan cirka – så ingen problemer her

Normalfordelingsplot (Q-Q plot) Konstruer et ”kunstige” data u1,u2,…,un som følger en normalfordeling. I et Q-Q plot plotter man ui. mod ei. Bemærk at både ui’erne og ei’erne er sorterede. Hvis residualerne er normalfordelte, vil vi have ei ≈ ui. Dvs (ei,ui) ligge usystematisk omkring en linje med hældning 1 og skæring 0.

Normalfordelingsplot (Q-Q plot) Det kunstige data (ui’erne) opnås ved at inddele normalfordelingen i n+1 lige store stykker. Areal = 1/(n+1) u5

Vælg ’Analyze → Descriptive Statistics → Q-Q plots’ Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen. Punkterne ligger rimlig usystematisk omkring linjen: Altså ca. normalfordelt

Determinations-koefficienten R2 Definition Fordel: Nem at fortolke: Andel af den totale variation der er forklaret af modellen. Ulempe: R2 vokser når vi tilføjer flere forklarende variable. Dvs. ved at tilføje flere og flere forklarende variable kan vi få et vilkårligt stort R2. Mål: Vi jagter den simplest mulige model, der forklarer data tilfredsstillende.

Justeret R2 Definition: Trade-off mellem forklaringsgrad, R2, og antallet af parametre, k. Fordel: Vokser kun, hvis ekstra forklarende variabels forklaringsgrad er stor i forhold til antal ekstra parametre. Ulempe: Ikke samme simple fortolkning som R2.

Hypotese-test Generelt vil vi teste om en eller flere bi’er kan sættes lig nul. Det svarer til at fjerne de tilsvarende led fra modellen. Formelle hypoteser H0: b1 = … = bq = 0 H1: bi ≠ 0 for mindst et af de q parametre Testes vha. af et F-test. Teststørrelsen F ≥ 0 og følger en F-fordeling Jo større F er jo mere kritisk for H0. Vi konkluderer som sædvanligt på baggrund af p-værdi. q b ’er efter eget valg

F-test detaljer for de nysgerrige Teststørrelsen er SSE er summen af de kvadrerede fejl i en model, hvor når b1,…, bq er med (den oprindelige model) SSE* er summen af de kvadrede fejl når b1,…, bq ikke er med. Der gælder SSE* ≥ SSE. Intuition: Jo større forskel (SSE*-SSE) jo mere betyder b1,…, bq for modellen og jo mindre tror vi på F.

F-fordelingen F F-fordeling Areal = p-værdi ) F ( f F . 7 . 6 . 5 . 4 . 7 . 6 . 5 . 4 ) F f ( . 3 Areal = p-værdi . 2 . 1 . F 1 2 3 4 5 F

Gas = Temp + Insulate + Temp*Insulate Modelform Sidst så vi på en model for forbruget af gas (Gas) forklaret ved temperatur (Temp) og om huset var isoleret (Insulate) Her er xFør dummy variabel At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som Gas = Temp + Insulate + Temp*Insulate I forbindelse med analyse eller fortolkning af modellen er det stadig nyttigt at skrive den matematiske formel op.

Modelsøgning Formål: Find den simplest mulig model, der beskriver data tilfredsstillende. Kandidater: Vi vil kun bruge modeller der overholder det hierarkiske princip: Hvis en model indeholder en interaktion, så skal hovedeffekterne også være med. Fx. Hvis modellen indeholder interaktionen A*B, så skal den også indeholde A og B. Hvis modellen indeholder A*B*C, så skal A*B, A*C, B*C, A, B og C være med. Osv… Naiv søgning: Gennemgå alle modeller og vælg den der er bedst efter et eller andet kriterie, fx R2. Backwards søgning: Start med en kompliceret model og fjern derefter en efter en led, der ikke er signifikante.

Backwards søgning Backwards-søgning: Startmodel: Vælg til at starte med en model, der indeholder alle variable og vekselvirkninger, der menes at være (fagligt) interessante som forklaring den afhængige variabel. Undgå at specificere en model der er vanskelig at fortolke. Test hvilke led i modellen, der kan fjernes. Mindst signifikante led fjernes, dvs F-test med højest p-værdi, dog så Det hierarkiske princip er overholdt p-værdien > a (typisk a = 0.05) Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mindre model. Slutmodel: Når ikke flere led kan fjernes har vi vores slutmodel. Forbehold: Før hver ”test-runde” skal man afklare om modellens antagelser er opfyldt – ellers kan man ikke stole på p-værdierne.

Stort Eksempel: Boligpriser price: Boligens pris i $ sqft: Boligens størrelse i kvadrat-fod bedrooms: Antal soveværelser baths: Antal badeværelser garage: Antal biler, der er plads til i garagen.

Eksplorativ analyse

Krydstabel garage vs bedrooms Bemærk: Mange ’expected counts’<5, så vi kan ikke bruge en c2-test. Løsning: Slå kategorier sammen

Omkodning af Garage Omkodning: garage = 0 til 1 → garage2 = 0 garage ≥ 2 → garage2 = 1 SPSS: Transform→Recode into Different Variables…

Omkodning af Bedrooms Omkodning: bedroom = 1 til 2 → bedroom2 = 2 bedroom = 3 → bedroom2 = 3 bedroom = 4 til 5 → bedroom2 = 4

Krydstabel garage2 vs bedrooms2 Hypotese: H0: Uafhængighed H1: Afhængighed Teststørrelse: c2 P-værdi < 0.0005 Konklusion: Vi afviser H0, dvs. der er afhængighed.

Logistisk Regression Afhængig variabel garage2 Forklarende variabel price Output: Konklusion: Pris har en betydning, hvis modellen er god… men det er modellen ikke…

Variansanalyse Afhængig: Boligpris Forklarende: Garage2 og Bedroom2 Model(formel): Dummy variable: xg0 = 1  garage2 = 0 xb2 = 1  garage2 = 2 xb3 = 1  garage2 = 3

Modelform Slipper for detaljerne: Brug modelform Modelform: Denne model kaldes mættet, da alle tænkelig vekselvirkninger er medtaget. Er man ekstra doven, så skriver man kun De resterende led følger af det hierarkiske princip. Garage2 + Bedroom2 + Garage2*Bedroom2 Garage2*Bedroom2

SPSS: Test af model-led Vi afviser hypotesen om at vekselvirkningsleddet kan udelades. Konklusion: Prisen på bolig kan ikke forklares af antal soveværelser og størrelsen på garagen alene. Et vekselvirkningsled mellem antal soveværelser og størrelsen på garagen er nødvendig. Næste skridt burde være modelkontrol.

Boligpris og Boligareal

Badeværelser og Boligpris

Generel Lineære Model - Startmodel Afhængig: Boligpris Forklarende: sqft, baths og bedroom2 Modelform: sqft + baths + bedroom2 + sqft*bedroom2 + baths*bedroom2 + sqft*baths

Model-formel Den tilsvarende model-formel er xb2 og xb3 er dummyvariable kodet som før.

Modelkontrol Scatterplot af ei mod ^yi Godt: Usystematisk Skidt: Variansen er ikke konstant. Løsninger? Indfør price2 = log(price) Indfør price2 = √price

Normalfordelte Residualer Fordelingen er lidt for spids til at være normalfordelt. Men lad det nu ligge…

Test i SPSS Ingen af interaktionsleddene er signifikante! Fjerner mindst signifikante led (baths*sqft)

Reduceret Model Begge tilbageværende vekselvirkningsled er mindre signifikante end før – lidt atypisk. Vi fjerner bedrooms2*baths

Slutmodel Nu er bedrooms2*sqrt stærkt signifikant! Modelsøgningen er slut – pånær modelkontrol.

Estimater Antal badeværelser har betydning for prisen Ligeledes har antal soveværelser og boligareal Prisen for en ekstra sqft afhænger af antal værelser.

Mini-Projekt Omfang: Ca. 30 sider (ikke noget krav – sådan ender det som regel) Indhold: Beskrivelse af data Opstilling af (kvalitative) hypoteser Anvend modeller og metoder fra kurset Aflevering: Senest mandag. d. 26/11 kl. 12. pr. e-mail til kkb@math.aau.dk og en hard-copy til Dorte. Eksamen: Torsdag 5. November.