Simpel Lineær Regression

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Grundlæggende teoretisk statistik
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri 1: F81 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006.
Poissonfordelte observationer Deskriptiv analyse Jens Friis, AAU.
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
KM2: F61 Kvantitative metoder 2 Den simple regressionsmodel 21. februar 2007.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Inge Henningsen Stat BK uge
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Simpel Lineær Regression Opsplitning af variationen Determinations koefficient Variansanalyse – F-test Model-kontrol

Opbygning af statistisk model Specificer model Ligninger og antagelser Estimer parametre Nej Modelkontrol Er modellen passende Ja Anvend modellen

Simpel Lineær Regression - repetition Model: Spørgsmål: ”Afhænger y lineært af x ?”. Systematisk komponent Stokastisk komponent +

Estimation - repetition Vha. Mindste Kvadraters Metode finder vi regressionslinien hvor Residual:

Forklaret og uforklaret afvigelse Yi’s afvigelse fra kan opdeles i to. Y . Forklaret afvigelse Totale afvigelse Forklaret afvigelse X

Total og forklaret variation - illustration Y X Den totale variation ses når vi “kigger langs” x-aksen Den uforklarede variation ses når vi “kigger langs” regressionslinien

Den totale variation Den totale variation for data er ”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total

Opslitning af den totale variation Den totale variation kan opslittes: er den uforklarede variation. er den forklarede variation. SSR = Sum of Squares Regression

Total og forklaret variation Opslitning a variationen

Determinations koeffcienten Determinations Koeffcienten: Andelen af den totale variation, der er forklaret. Pr definition: 0 ≤ r2 ≤ 1. Jo tættere r2 er på 1, jo mere af variationen i data er forklaret af modellen. r2 >0.8 er godt! … r2 meget tæt på 1 er dog mistænkeligt.

Eksempler på r2 Y Y Y X X X SST SST SST SSE SSE SSR SSR r2 = 0

r2 og Korrelationskoefficienten r Den estimerede korrelationskoefficienten Vis at r2 = r2 …. :-s Ingredienser:

Variansanalyse-tabel Hypoteser: H0: β=0 ”Lineær regression er ikke besværet værd.” H1: β≠0 Under H0 gælder SSE/s2 og SSR/s2 er uafhængige og Antal observationer minus totale antal parametre. Antal parametre involveret i testen.

Variansanalyse - fortsat Af forrige slide følger: Store værdier af F er kritiske for H0. Med signifikansniveau α afviser vi H0, hvis

SPSS output F-teststørresle Sums of Squares Frihedsgrader Mean Sums of Squares

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt! Er der en lineær sammenhæng mellem X og Y ? Er fejlleddene ε1,…, ε1 uafhænige? Følger fejlleddene ε1,…, ε1 alle N(0,s2)?

Residualanalyse Bemærk at residualet er et estimat for εi. Dvs. ei’erne groft sagt skal opføre sig som uafhængige N(0,s2) variable! Grafisk kontrol: Plot ei’erne mod xi eller .

Residualplot Residualer √ Residualer ٪ Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x. Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig. Residualer ٪ ٪ Residualer Tid Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen. Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

TV-Statistik-Køkken Jeg har snydt og lavet mit eget data… Det ligner reklame/salg data, men med flere observationer (n=30).

Residualer i SPSS I ’Linear Regression’ vinduet vælges ’Save…’ I ’Save’ vinduet vælges ’Unstandardized’ både under ’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) . Derefter kan man fx lave scatter plots.

Scatter plot af residualer (ei’erne) mod ’højde’ (xi’erne) (øverst) residualer (ei’erne) mod prædiktionerne (^yi’erne) (nederst). Ser jo ganske usystematisk ud!

Grafiske check for Normalfordeling For at tjekke holdbarheden af antagelsen om normalfordelte fejlled: ( εi~N(0,σ2) ) Lav et histogram over residualerne og se efter om det normalfordelt ud. Lave et normalfordelingsplot (Q-Q plot). Lav et formelt χ2-test for ”goodness of fit” til en normalfordeling for residualerne

Histogram af residualer Det ser jo ca normalfordelt ud…

Normalfordelingsplot (Q-Q plot) For hvert residual ei udregner vi hvor li er antallet af residualer der er mindre end ei, og mi er antallet af residualer med samme værdi som ei. For hvert qi finder vi zi , så P(Z≤ zi )= qi , hvor Z~N(0,1). Hvis ei’erne er normalfordelte vil et plot af (ei, zi) ligge på en ret linie.

Normalfordelingsplot (Q-Q plot) Nemmere med en tegning…

Vælg ’Analyze → Descriptive Statistics → Q-Q plots’ Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.

Prædiktion i SLR-modellen Punktprædiktion: Hvilken værdi vil y forventeligt antage, hvis x antager en bestemt værdi, fx x=10 ? Svar: Dvs. vi prædikterer som bedste bud på punktets værdi. Bedst ikke at prædiktere for x–værdier for langt fra, hvor vi har data Ganske simpelt ved at indsætte x i den estimerede regressions linje!

Prædiktionsinterval for observationen Et (1-α)100% prædiktions interval for Y|X=x er Hvor s=√MSE. Et (1-α)100% konfidens interval for E(Y|X=x) er

Prædiktionsbånd Y Prædiktionsbånd for E[Y|X] Regressions- linie Prædiktionsbånd for Y|X X Prædiktionsbåndene fremkommer ved at betragte konfidensintervallets endepunkter som funktion af x.

SLR og lineær algebra Den simple lineære regressions model siger: Hvor e1,...,en er uafhængige og enfordelte e2~N(0,s2) . Det kan vi skrive som to søjle-vektore!

SLR og lineær algebra Sådan! Den sidste vektor kan vi skrive som en sum af vektore…

SLR og lineær algebra Modellen kan skrives vha. matrixer og vektore: Hvor Matricen X kaldes Design-matricen.

SLR og lineær algebra Regneregel fra lineære algebra: Estimatet for er: