Download præsentationen
Præsentation er lastning. Vent venligst
Offentliggjort afBenjamin Frank Redigeret for ca. et år siden
1
Repetition Forårets højdepunkter…
3
Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation
4
Scatterplot Et scatterplot viser par (x,y) af observationer. I eksemplet er x reklamebudget og y afsætningen. I scatter plottet er tilføjet en ret linie… Bemærk hvordan par af x og y har tendens til at ligge omkring en ret linie. hvordan par af x og y ikke falder præcis på linien. hvordan linien beskriver hvordan y i gennemsnit afgænger af x.
5
Flere scatterplot X Y X Y X 0 0 0 0 0 Y X Y X Y X Y
6
Simpel Lineær Regression (SLR) Simpel fordi vi kun har én forklarende variabel – nemlig x. Lineær fordi sammenhængen mellem x og y er lineær.
7
Simpel lineær regressionsmodel Y- den afhængige variabel. X- den uafhængige variabel – faste β- det græske bogstav ”beta” β 0 - skæringspunkt med y-aksen β 1 - hældningskoefficient iid- independent, identically distributed = uafhængig, identisk fordelte ε- det græske bogstav ”epsilon” ε i - det eneste stokastiske element i modellen
8
Simpel lineær regression – tegningen X Y XiXi } } YiYi { β1β1 1 β0β0 εiεi E[Y|X] = β 0 + β 1 X Modellen siger: E(Y|X) = β 0 + β 1 X V(Y|X) = σ 2 Y|X ~ N(β 0 + β 1 X, σ 2 ) Modellen er:
9
Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N(β 0 + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5
10
Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (X,Y) – ser punkterne ud til at ligge langs en linie? x y y y y
11
Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable X antages at være faste – dvs. ikke stokastiske. Mao. Antages X at være kendt eller målt uden ”støj”/”målefejl” Indledende tjek: Logisk sans.
12
Forudsætninger for SLR (3/3) Fejledene ε i antages være uafhængige og normalfordelte med middelværdi 0 og varians σ 2. Indledende tjek: Se efter indlysende problemer i scatter plot af (X,Y). x y y y y
13
Eksempel: Reklame budget vs salg Reklame budget (x)Salg (y) 40385 20400 25395 20365 30475 50440 40490 20420 50560 40525 25480 50510 Sammenhæng mellem det ugentlige reklame-budget og det ugentlig salg?
14
Scatterplot i SPSS Graphs→Chart Builder Vælg ’Simple Scatter’ Placer relevante variable på x og y akserne. Klik ’OK’
15
Scatterplot af data i SPSS Og hva’ så?
16
Estimation Model: y i = β 0 + β 1 x i + ε i ε i er i.i.d. N(0,σ 2 ) β 0, β 1 og σ 2 er modellens parametre – ukendte! Estimation af β 0 og β 1 svarer til at vælge den linie, der passer bedst til de observerede punkter. Estimerede regressions linie b 0 er estimat for β 0 og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi β 0 og β 1 ?
17
Residual led er den (lodrette) afstanden fra den estimerede linie til punktet (x i,y i ).. { Y X XiXiXiXi Den fittede regressionslinie
18
Mindste kvadraters metode Vi vil finde b 0 og b 1 så summen af de kvadrede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable (b 0 og b 1 ).
19
Minimering b0b0 SSE b1b1 SSE er en funktion af b 0 og b 1. Vi vil finde b 0 og b 1 så SSE er mindst mulig.
20
Minimering udført Definer funktion Q(b 0,b 1 ) = SSE. Dvs vi skal minimere Q(b 0,b 1 ). Fremgangsmåde: Find de to partielle afledte og : Sæt partielle afledte lig nul: To ligninger med to ubekendte: Løs dem!
21
Omskrivning af afledte mht. b 0
22
Afledte mht. b 1
23
To ligninger med to ubekendte Indsæt (1) i (2) på b 0 ’s plads: Estimat af β 0 ! Isolér b o i (1)
24
Isoler b 1 : Estimat af β 1
25
Estimater per håndkraft xx2x2 yy2y2 xy 40160038514822515400 20400 1600008000 256253951560259875 204003651332257300 3090047522562514250 50250044019360022000 40160049024010019600 204004201764008400 50250056031360028000 40160052527562521000 2562548023040012000 50250051026010025500 410 15650 5445 2512925 191325
26
Estimerede regressions linie:
27
Samme historie i SPSS Analyze→Regression→Linear Placer den afhænige variabel (”y-variablen”) i ’Dependent’. Placer den uafhængige/ forklarende variable (”x-variablen”) i ’Indpendent(s)’. Klik ’OK’.
28
SPSS output Estimerede regressions linje: b0b0 b1b1
29
Regneformler For at gøre livet lidt lettere vil vi bruge følgende forkortelser/regneformler Bemærk: Nok at udregne følgende fem udtryk:
30
Lidt regneregler Regneregel: Fordi: Konsekvens:
31
Estimaternes fordeling Estimatoren B 1 svarende til estimatet b 1 er Bemærk at Y’erne ”store”, dvs de er stokastiske variable, derfor er B 1 også er en stokastisk variabel. Estimator: Stokastisk variabel. Estimat: ”Fast tal”, dvs. ej stokastisk. Opnået ved at ”indsætte” observationerne i estimatoren.
32
Estimatoren B 1 ’s fordeling Hvis den lineære regressions model er sand gælder der for estimatoren B 1 : Middelværdi: Varians: Fordeling: Bemærk: Når SS x er stor så er S b1 lille!
33
Plads til udregninger…
34
Estimatoren B 0 ’s fordeling Estimatoren B 0 svarende til estimatet b 0 er Middelværdi Varians Fordeling
35
Estimation af σ 2 – variansen for fejledene I foråret estimerede vi variansen i en uafhængig stikprøve ved For simpel lineær regression bruger vi MSE = Mean Squared Error Antal frihedsgrader ”Minus én”, da s 2 involverer ét estimat, nemlig. ”Minus to”, da s 2 involverer to estimater, nemlig b 0 og b 1.
36
Udregning af SSE Hermed opnår vi Som desuden er en unbiased estimator for σ 2.
37
Næste gang… Konfidensintervaller for parametre Test af hypoteser Korrelation
Lignende præsentationer
© 2024 SlidePlayer.dk Inc.
All rights reserved.