Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.

Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel

Generel Lineær Model Yafhængig skala variabel x 1,…,x k forklarende variable, skala eller binære Model: Middelværdien af Y givet x=(x 1,…,x k )

Generel Lineær Model Mere præcist: i’te observation y i ud af n er givet ved x j,i er j’te forklarende variabel for i’te observation.  1,…,  n er uafhængige og identisk fordelt  i ~ N(0,  2 ) Idependent and Identically Distributed - IID Systematisk delTilfældig del

Hypotese-test Generelt vil vi teste om en eller flere  i ’er kan sættes lig nul. Det svarer til at fjerne de tilsvarende led fra modellen. Formelle hypoteser  H 0 :  1 = … =  q = 0  H 1 : Mindst et af de q parametre har  i ≠ 0 Teststørrelsen er: (Alternativ formulering i forhold til sidst) q  ’er efter eget valg

F-test Teststørrelsen er SSE er summen af de kvadrerede fejl i en model, hvor når    …  q  er med (den oprindelige model) SSE * er summen af de kvadrede fejl når    …  q  ikke er med. Der gælder SSE * ≥ SSE. Intuition: Jo større forskel (SSE * -SSE) jo mere betyder    …   q  for modellen og jo mindre tror vi på F.

F-fordelingen 543210 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 F f ( F ) Areal = p-værdi F-fordeling F

Opbygning af statistisk model Specificer model Ligninger og antagelser Estimer parametre Modelkontrol Er modellen passende? Anvend modellen Ja Nej Eksplorativ data-analyse

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! Er der en lineær sammenhæng mellem X og Y ? Er fejlleddene  1,…,  n uafhænige? Følger fejlleddene  1,…,  n alle N(0,  2 ) ?

Bemærk at residualet er et estimat for ε i. Dvs. e i ’erne groft sagt skal opføre sig som uafhængige N(0,  2 ) variable! Grafisk kontrol: Plot e i ’erne mod x i eller. Residualanalyse

Residualplot 0 Residualer Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x. 0 Residualer Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng. 0 Residualer Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Tid 0 Residualer Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. ٪ ٪ ٪ √

Eksempel: Salg og Reklame Data: n=30 par af observationer.  Y = Ugentlige salg  X = Ugentlige reklame-budget

Residualer i SPSS I ’Linear Regression’ vinduet vælges ’Save…’ I ’Save’ vinduet vælges ’Unstandardized’ både under  ’Reresiduals’ ( e i ’erne) og  ’Predicted Values’ ( ’erne).

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder  residualer (’RES_1’)  prædiktioner (’PRE_1’). Derefter kan man fx lave scatter plots.

Scatter plot af  residualer (e i ’erne) mod ’højde’ (x i ’erne) (øverst)  residualer (e i ’erne) mod prædiktionerne (^y i ’erne) (nederst). Ser jo ganske usystematisk ud!

Grafiske check for Normalfordeling For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( ε i ~N(0,σ 2 ) )  Lav et histogram over residualerne og se efter om det normalfordelt ud.  Lave et normalfordelingsplot (Q-Q plot).

Det ser jo ca. normalfordelt ud… Histogram af residualer

Normalfordelingsplot (Q-Q plot) Et Q-Q plot er scatter plot, hvor  X = Residualerne (e i ’erne)  Y = Idealiseret stikprøve fra normalfordeling Bemærk at både x’erne og x’erne er sorterede. Hvis residualerne er normalfordelte, vil vi have x i ≈ y i. Dvs (x,y) ligge usystematisk omkring en linje med hældning 1 og skæring 0.

Normalfordelingsplot (Q-Q plot) De idealisrede data (y’erne) opnås ved at ”inddele normalfordelingen” i n+1 lige store stykker. Areal = 1/(n+1) y5y5

Vælg ’Analyze → Descriptive Statistics → Q-Q plots’ Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen. Punkterne ligger rimlig usystematisk omkring linjen: Altså ca. normalfordelt

Modelsøgning Formål: Find den simplest mulig model, der beskriver data tilfredsstillende. Backwards-søgning:  Startmodel: Vælg til at starte med en model, der indeholder alle variable og vekselvirkninger, der menes at være (fagligt) interessante som forklaring den afhængige variabel. Undgå at specificere en model der er vanskelig at fortolke.  Test hvilke led i modellen, der kan fjernes. Mindst signifikante led fjernes, dvs F-test med højest p-værdi, dog så Det hierarkiske princip er overholdt p-værdien >  (typisk  = 0.05)  Reduceret model: Når et led er fjernet udføres en ny analyse på den nye og mindre model.  Slutmodel: Når ikke flere led kan fjernes har vi vores slutmodel. Forbehold: Før hver ”test-runde” skal man afklare om modellens antagelser er opfyldt – ellers kan man ikke stole på p-værdierne.

Definition  Fordel: Nem at fortolke: Andel af den totale variation der er forklaret af modellen.  Ulempe: R 2 vokser når vi tilføjer flere forklarende variable. Dvs. et stort R 2 er ikke nødvendigvis en fordel. R 2 Determinations-koefficienten

Justeret R 2 Definition:  Fordel: Vokser kun, hvis ekstra forklarende variabels forklaringsgrad er stor i forhold til antal ekstra parametre.  Ulempe: Ikke samme simple fortolkning som R 2.

Stort Eksempel: Boligpriser price: Boligens pris i $ sqft: Boligens størrelse i kvadrat-fod bedrooms: Antal soveværelser baths: Antal badeværelser garage: Antal biler, der er plads til i garagen.

Eksplorativ analyse

Krydstabel garage vs bedrooms Bemærk: Mange ’expected counts’<5, så vi kan ikke bruge en    test. Løsning: Slå kategorier sammen

Omkodning af Garage Omkodning:garage = 0 til 1 → garage2 = 0 garage ≥ 2→ garage2 = 1 SPSS: Transform→Recode into Different Variables…

Omkodning af Bedrooms Omkodning:  bedroom = 1 til 2 → bedroom2 = 2  bedroom = 3 → bedroom2 = 3  bedroom = 4 til 5→ bedroom2 = 4

Krydstabel garage2 vs bedrooms2 Hypotese:  H 0 : Uafhængighed  H 1 : Afhænmgighed Teststørrelse:    P-værdi < 0.0005 Konklusion: Vi afviser H 0, dvs. der er afhængighed.

Logistisk Regression Afhængig variabel garage2 Forklarende variabel price Output: Konklusion: Pris har en betydning, hvis modellen er god… men det er modellen ikke…

Variansanalyse Afhængig: Boligpris Forklarende: Garage2 og Bedroom2 Model(formel): Dummy variable:  x g0 = 1  garage2 = 0  x b2 = 1  garage2 = 2  x b3 = 1  garage2 = 3

Modelform Slipper for detaljerne: Brug modelform Modelform: Denne model kaldes mættet, da alle tænkelig vekselvirkninger er medtaget. Er man ekstra doven, så skriver man kun De resterende led følger af det hierarkiske princip. Garage2 + Bedroom2 + Garage2*Bedroom2 Garage2*Bedroom2

SPSS: Test af model-led Vi afviser hypotesen om at vekselvirkningsleddet kan udelades. Konklusion: Prisen på bolig kan ikke forklares af antal soveværelser og størrelsen på garagen alene. Et vekselvirkningsled mellem antal soveværelser og størrelsen på garagen er nødvendig. Næste skridt burde være modelkontrol.

Boligpris og Boligareal

Badeværelser og Boligpris

Generel Lineære Model - Startmodel Afhængig: Boligpris Forklarende: sqft, baths og bedroom2 Modelform: sqft + baths + bedroom2 + sqft*bedroom2 + baths*bedroom2 + sqft*baths

Model-formel Den tilsvarende model-formel er x b2 og x b3 er dummyvariable kodet som før.

Modelkontrol Scatterplot af  e i mod ^y i Godt: Usystematisk Skidt: Variansen er ikke konstant. Løsninger?  Indfør price2 = log(price)  Indfør price2 = √ price

Normalfordelte Residualer Fordelingen er lidt for spids til at være normalfordelt. Men lad det nu ligge…

Test i SPSS Ingen af interaktionsleddene er signifikante! Fjerner mindst signifikante led (baths*sqft)

Reduceret Model Begge tilbageværende vekselvirkningsled er mindre signifikante end før – lidt atypisk. Vi fjerner bedrooms2*baths

Slutmodel Nu er bedrooms2*sqrt stærkt signifikant! Modelsøgningen er slut – pånær modelkontrol.

Estimater Antal badeværelser har betydning for prisen Ligeledes har antal soveværelser og boligareal Prisen for en ekstra sqft afhænger af antal værelser.

Mini-Projekt Omfang: Ca. 30 sider Indhold:  Beskrivelse af data  Opstilling af (kvalitative) hypoteser  Anvend modeller og metoder fra kurset Aflevering: Senest mandag. d. 27/10 kl. 12. pr. e-mail til kkb@math.aau.dkkkb@math.aau.dk Eksamen: Torsdag 30. Oktober.

Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.

Lignende præsentationer

Præsentationer af emnet: "Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.

Lignende præsentationer

Præsentationer af emnet: "Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback