Statistik Lektion 14 Simpel Lineær Regression

Slides:



Advertisements
Lignende præsentationer
Anvendt Statistik Lektion 3
Advertisements

Statistik Lektion 17 Multipel Lineær Regression
Anvendt Statistik Lektion 9
Sammenligning af to grupper
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Variansanalyse Modelkontrol
Anvendt Statistik Lektion 8
Statistik Lektion 5 Log-lineære modeller.
Anvendt Statistik Lektion 8
Statistik II Lektion 5 Modelkontrol
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Økonometri 1: F3 Økonometri 1 Den simple regressionsmodel 15. september 2006.
Statistik II 5. Lektion Log-lineære modeller.
Statistik II Lektion 4 Generelle Lineære Modeller
Anvendt Statistik Lektion 7
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Økonometri 1: F121 Økonometri 1 Heteroskedasticitet 27. oktober 2006.
Simpel Lineær Regression
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statistik Lektion 15 Mere Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri – lektion 7 Multipel Lineær Regression
Økonometri – lektion 5 Multipel Lineær Regression
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 22. marts 2006.
Økonometri – lektion 8 Multipel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007.
Anvendt Statistik Lektion 10  Regression med både kvantitative og kvalitative forklarende variable  Modelkontrol 1.
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
KM2: F61 Kvantitative metoder 2 Den simple regressionsmodel 21. februar 2007.
Simpel Lineær Regression
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 24. februar 2003.
Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.
Statistik Lektion 8 Test for ens varians.
KM2: F51 Kvantitative metoder 2 Den simple regressionsmodel 19. februar 2007.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Grundlæggende teoretisk statistik
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 7. september 2004.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2005.
Statikstik II 4. Lektion Generelle Lineære Modeller.
Statikstik II 3. Lektion Multipel Logistisk regression Generelle Lineære Modeller.
Statistik II 4. Lektion Logistisk regression.
Økonometri – lektion 6 Multipel Lineær Regression
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 27. marts 2003.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
Statistik II Lektion 5 Modelkontrol Modelkontrol Modelsøgning Større eksempel.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 29. oktober 2004.
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Opsamling ● Generelle lineære modeller ● Logistisk regression ● Log-lineære modeller ● Mini-projekt.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Den multiple regressionsmodel 21. september 2005
Heteroskedasticitet 25. oktober 2005
Anvendt Statistik Lektion 8
Anvendt Statistik Lektion 6
Præsentationens transcript:

Statistik Lektion 14 Simpel Lineær Regression Mindste kvadraters metode Kovarians og Korrelation

Scatterplot S c a t e r p l o k f A d v i s n g E x u ( X ) Y 5 4 3 2 1 8 6 Et scatterplot viser par (x,y) af observationer. I eksemplet er x reklamebudget og y afsætningen. I scatter plottet er tilføjet en ret linie… Bemærk hvordan par af x og y har tendens til at ligge omkring en ret linie. hvordan par af x og y ikke falder præcis på linien. hvordan linien beskriver hvordan y i gennemsnit afgænger af x.

Flere scatterplot X Y

Simpel Lineær Regression (SLR) Simpel fordi vi kun har én forklarende variabel – nemlig x. Lineær fordi sammenhængen mellem x og y er lineær.

Simpel lineær regressionsmodel Y - den afhængige variabel. X - den uafhængige variabel – faste β - det græske bogstav ”beta” β0 - skæringspunkt med y-aksen β1 - hældningskoefficient iid - independent, identically distributed = uafhængig, identisk fordelte ε - det græske bogstav ”epsilon” εi - det eneste stokastiske element i modellen

Simpel lineær regression – tegningen Modellen er: Y E[Y|X] = β0 + β1X (xi,yi) Yi εi β1 Modellen siger: E(Y|X) = β0 + β1X V(Y|X) = σ2 Y|X ~ N(β0 + β1X, σ2) 1 β0 X Xi

Ensidet Variansanalyse Simpel Lineær Regression ANOVA vs SLR Ensidet Variansanalyse Simpel Lineær Regression Y Y Y|x=3 ~ N(μ+α3,σ2) Yi|xi~N(β0 + β1xi,σ2) μ+α3 μ i.i.d. normalfordelte fejlled i.i.d normalfordelte fejlled i=1 i=2 i=4 i=3 i=5 x1 x3 x2 x4 x5 X X Kategorisk forklarende variabel i Kontinuert forklarende variabel x

Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (X,Y) – ser punkterne ud til at ligge langs en linie? y y y y x

Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable X antages at være faste – dvs. ikke stokastiske. Mao. Antages X at være kendt eller målt uden ”støj”/”målefejl” Indledende tjek: Logisk sans.

Forudsætninger for SLR (3/3) Fejledene εi antages være uafhængige og normalfordelte med middelværdi 0 og varians σ2. Indledende tjek: Se efter indlysende problemer i scatter plot af (X,Y). y y y y x

Eksempel: Reklame budget vs salg Sammenhæng mellem det ugentlige reklame-budget og det ugentlig salg? Reklame budget (x) Salg (y) 40 385 20 400 25 395 365 30 475 50 440 490 420 560 525 480 510

Placer relevante variable på x- og y- akserne. Scatterplot i SPSS Graphs→Chart Builder Vælg ’Simple Scatter’ Placer relevante variable på x- og y- akserne. Klik ’OK’ 3 3 2 1

Scatterplot af data i SPSS Og hva’ så?

Estimation Model: yi = β0 + β1 xi + εi εi er i.i.d. N(0,σ2) β0, β1 og σ2 er modellens parametre – ukendte! Estimation af β0 og β1 svarer til at vælge den linje, der passer bedst til de observerede punkter. Estimerede regressions linje b0 er estimat for β0 og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi β0 og β1?

Residual led er den (lodrette) afstanden fra den estimerede linie til punktet (xi,yi). Y Det observerede datapunkt . Den fittede regressionslinie X Xi

Mindste kvadraters metode Vi vil finde b0 og b1 så summen af de kvadrerede residualer bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable (b0 og b1).

Minimering SSE er en funktion af b0 og b1. Vi vil finde b0 og b1 så SSE er mindst mulig. b0 SSE b1

Minimering udført Definer funktion Q(b0,b1) = SSE. Dvs vi skal minimere Q(b0,b1). Fremgangsmåde: Find de to partielle afledte og : Sæt partielle afledte lig nul: To ligninger med to ubekendte: Løs dem! (2) (1)

To ligninger med to ubekendte Isolér bo i (1) Estimat af β0 ! Indsæt i (2) på b0’s plads og regn videre… Resultat: Estimat af β1 !

Estimater per håndkraft x x2 y y2 xy 40 1600 385 148225 15400 20 400 160000 8000 25 625 395 156025 9875 365 133225 7300 30 900 475 225625 14250 50 2500 440 193600 22000 490 240100 19600 420 176400 8400 560 313600 28000 525 275625 21000 480 230400 12000 510 260100 25500 410 15650 5445 2512925 191325

Estimerede regressions linie:

Samme historie i SPSS Analyze→Regression→Linear Placer den afhænige variabel (”y-variablen”) i ’Dependent’. Placer den uafhængige/ forklarende variable (”x-variablen”) i ’Indpendent(s)’. Klik ’OK’.

SPSS output b0 b1 Estimerede regressions linje:

Regneformler For at gøre livet lidt lettere vil vi bruge følgende forkortelser/regneformler Bemærk: Nok at udregne følgende fem udtryk:

Estimaternes fordeling Estimatoren B1 svarende til estimatet b1 er Bemærk at Y’erne ”store”, dvs de er stokastiske variable, derfor er B1 også er en stokastisk variabel. Estimator: Stokastisk variabel. Estimat: ”Fast tal”, dvs. ej stokastisk. Opnået ved at ”indsætte” observationerne i estimatoren.

Estimatoren B1’s fordeling Hvis den lineære regressions model er sand gælder der for estimatoren B1: Middelværdi: Varians: Fordeling: Bemærk: Når er stor så er Var(b1) lille!

Estimatoren B0’s fordeling Estimatoren B0 svarende til estimatet b0 er Middelværdi Varians Fordeling

Estimation af σ2 – variansen for fejledene Tidligere estimerede vi variansen i en uafhængig stikprøve ved For simpel lineær regression bruger vi MSE = Mean Squared Error Antal frihedsgrader ”Minus én”, da s2 involverer ét estimat, nemlig . Antal frihedsgrader ”Minus to”, da s2 involverer to estimater, nemlig b0 og b1.

Udregning af SSE Hermed opnår vi Som desuden er en unbiased estimator for σ2.

Konfidensinterval for β1 Vi har (1-α)100% konfidensinterval for β1 er hvor

Konfidensinterval for β0 Vi har (1-α)100% konfidensinterval for β0 er hvor

Test af hældning (β1) Test for om hældningen, β1, har en bestemt værdi, K: Hvis H0 er sand, så gælder der Teststørrelse:

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen Bestem p-værdien. Beslutning: Hvis p-værdien < α afvises H0. t-fordeling med n-2 frihedsgrader . 8 . 7 . 6 . 5 . 4 . 3 . 2 . 1 . Orange område = p-værdi

Særlig interessant: H0: β1=0 Er der en lineær sammenhæng mellem X og Y? H0: β1=0 ingen lineær sammenhæng H1: β1≠0 lineær sammenhæng Følgende er eksempler, hvor H0 accepteres. Konstant Y Usystematisk variation Ikke-lineær sammenhæng Y Y Y X X X

Eksempel: Reklame vs Salg Test for lineær sammenhæng mellem reklame og salg: Teststørrelse: Kritisk værdier: Beslutning: Vi forkaster H0 da t > 2.228. p-værdi = 0.027<0.05.

Samme historie i SPSS Analyze→Regression→Linear (som sidst) I ’Statistics…’ vælg: Estimates Confidens Intervals

SPSS output Teststørrelsen t. 95% Konfidens-intervaller for β0 og β1. Parameter-estimaterne b0 og b1. Estimerede standard-afvigelser, sb0 og sb1. p-værdien svarende til det tosidede test H0: βi=0.

SPSS output

Korrelationskoefficient ρ Graden af lineær sammenhæng mellem de stokastiske variable X og Y måles ved korrelationskoefficienten, r:

Illustration af korrelation Y X  = 0  = -.8  = .8  = -1  = 1

Kovarians Antag at X og Y er stokastiske variable. Definition af kovarians mellem X og Y: hvor Bemærk: I SLR er X ikke stokastisk! Hvis store X følges med store Y : Cov(X,Y)>0 Hvis store X følges med små Y : Cov(X,Y)<0

Nyttig formel Bemærk: Variansen af (X+Y) er ikke ”bare” variansen af X plus variansen af Y! Eksempel: Y = -X

Kovarians, Uafhængighed og Korrelation Egenskab: Hvis X og Y er uafhængige, så er Cov(X,Y)=0 Hvis X og Y er normalfordelte: X og Y er uafhængige  Cov(X,Y)=0 Definition: Korrelation Hvor

Estimation of korrelationskoef., ρ Estimatet af ρ betegnes r: r er stikprøve korrelationskoefficienten.

Test for korrelation mellem X og Y Hypoteser H0: r = 0 H1: r ≠ 0 Teststørrelse: Under H0:

SPSS output Korrelationen mellem ’Reklame budget’ og ’Salg’. p-værdi hørende til test af hypotesen H0: ρ=0.