Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.

Slides:



Advertisements
Lignende præsentationer
Anvendt Statistik Lektion 3
Advertisements

Statistik Lektion 18 Multipel Linear Regression
Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 9
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 14 Simpel Lineær Regression
Heteroskedasticitet 17. marts 2006
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation og dataproblemer 2. november 2004.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
KM2: F61 Kvantitative metoder 2 Den simple regressionsmodel 21. februar 2007.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 10. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
KM2: F181 Kvantitative metoder 2 Heteroskedasticitet 11. april 2007.
Økonometri 1: F41 Økonometri 1 Den multiple regressionsmodel 18. september 2006.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 26. oktober 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Repetition Forårets højdepunkter…

Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation

Scatterplot Et scatterplot viser par (x,y) af observationer. I eksemplet er x reklamebudget og y afsætningen. I scatter plottet er tilføjet en ret linie… Bemærk hvordan par af x og y har tendens til at ligge omkring en ret linie. hvordan par af x og y ikke falder præcis på linien. hvordan linien beskriver hvordan y i gennemsnit afgænger af x.

Flere scatterplot X Y X Y X Y X Y X Y X Y

Simpel Lineær Regression (SLR) Simpel fordi vi kun har én forklarende variabel – nemlig x. Lineær fordi sammenhængen mellem x og y er lineær.

Simpel lineær regressionsmodel Y- den afhængige variabel. X- den uafhængige variabel – faste β- det græske bogstav ”beta” β 0 - skæringspunkt med y-aksen β 1 - hældningskoefficient iid- independent, identically distributed = uafhængig, identisk fordelte ε- det græske bogstav ”epsilon” ε i - det eneste stokastiske element i modellen

Simpel lineær regression – tegningen X Y XiXi } } YiYi { β1β1 1 β0β0 εiεi E[Y|X] = β 0 + β 1 X Modellen siger: E(Y|X) = β 0 + β 1 X V(Y|X) = σ 2 Y|X ~ N(β 0 + β 1 X, σ 2 ) Modellen er:

Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N(β 0 + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5

Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (X,Y) – ser punkterne ud til at ligge langs en linie? x y y y y

Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable X antages at være faste – dvs. ikke stokastiske. Mao. Antages X at være kendt eller målt uden ”støj”/”målefejl” Indledende tjek: Logisk sans.

Forudsætninger for SLR (3/3) Fejledene ε i antages være uafhængige og normalfordelte med middelværdi 0 og varians σ 2. Indledende tjek: Se efter indlysende problemer i scatter plot af (X,Y). x y y y y

Eksempel: Reklame budget vs salg Reklame budget (x)Salg (y) Sammenhæng mellem det ugentlige reklame-budget og det ugentlig salg?

Scatterplot i SPSS Graphs→Chart Builder Vælg ’Simple Scatter’ Placer relevante variable på x og y akserne. Klik ’OK’

Scatterplot af data i SPSS Og hva’ så?

Estimation Model:  y i = β 0 + β 1 x i + ε i  ε i er i.i.d. N(0,σ 2 )  β 0, β 1 og σ 2 er modellens parametre – ukendte! Estimation af β 0 og β 1 svarer til at vælge den linie, der passer bedst til de observerede punkter. Estimerede regressions linie b 0 er estimat for β 0 og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi β 0 og β 1 ?

Residual led er den (lodrette) afstanden fra den estimerede linie til punktet (x i,y i ).. { Y X XiXiXiXi Den fittede regressionslinie

Mindste kvadraters metode Vi vil finde b 0 og b 1 så summen af de kvadrede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable (b 0 og b 1 ).

Minimering b0b0 SSE b1b1 SSE er en funktion af b 0 og b 1. Vi vil finde b 0 og b 1 så SSE er mindst mulig.

Minimering udført Definer funktion Q(b 0,b 1 ) = SSE. Dvs vi skal minimere Q(b 0,b 1 ). Fremgangsmåde:  Find de to partielle afledte og :  Sæt partielle afledte lig nul:  To ligninger med to ubekendte: Løs dem!

Omskrivning af afledte mht. b 0

Afledte mht. b 1

To ligninger med to ubekendte Indsæt (1) i (2) på b 0 ’s plads: Estimat af β 0 ! Isolér b o i (1)

Isoler b 1 : Estimat af β 1

Estimater per håndkraft xx2x2 yy2y2 xy

Estimerede regressions linie:

Samme historie i SPSS Analyze→Regression→Linear Placer den afhænige variabel (”y-variablen”) i ’Dependent’. Placer den uafhængige/ forklarende variable (”x-variablen”) i ’Indpendent(s)’. Klik ’OK’.

SPSS output Estimerede regressions linje: b0b0 b1b1

Regneformler For at gøre livet lidt lettere vil vi bruge følgende forkortelser/regneformler Bemærk: Nok at udregne følgende fem udtryk:

Lidt regneregler Regneregel: Fordi: Konsekvens:

Estimaternes fordeling Estimatoren B 1 svarende til estimatet b 1 er Bemærk at Y’erne ”store”, dvs de er stokastiske variable, derfor er B 1 også er en stokastisk variabel. Estimator: Stokastisk variabel. Estimat: ”Fast tal”, dvs. ej stokastisk. Opnået ved at ”indsætte” observationerne i estimatoren.

Estimatoren B 1 ’s fordeling Hvis den lineære regressions model er sand gælder der for estimatoren B 1 : Middelværdi: Varians: Fordeling: Bemærk: Når SS x er stor så er S b1 lille!

Plads til udregninger…

Estimatoren B 0 ’s fordeling Estimatoren B 0 svarende til estimatet b 0 er Middelværdi Varians Fordeling

Estimation af σ 2 – variansen for fejledene I foråret estimerede vi variansen i en uafhængig stikprøve ved For simpel lineær regression bruger vi MSE = Mean Squared Error Antal frihedsgrader ”Minus én”, da s 2 involverer ét estimat, nemlig. ”Minus to”, da s 2 involverer to estimater, nemlig b 0 og b 1.

Udregning af SSE Hermed opnår vi Som desuden er en unbiased estimator for σ 2.

Næste gang… Konfidensintervaller for parametre Test af hypoteser Korrelation