Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.

Repetition Forårets højdepunkter…

Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation

Scatterplot Et scatterplot viser par (x,y) af observationer. I eksemplet er x reklamebudget og y afsætningen. I scatter plottet er tilføjet en ret linie… Bemærk hvordan par af x og y har tendens til at ligge omkring en ret linie. hvordan par af x og y ikke falder præcis på linien. hvordan linien beskriver hvordan y i gennemsnit afgænger af x.

Flere scatterplot X Y X Y X 0 0 0 0 0 Y X Y X Y X Y

Simpel Lineær Regression (SLR) Simpel fordi vi kun har én forklarende variabel – nemlig x. Lineær fordi sammenhængen mellem x og y er lineær.

Simpel lineær regressionsmodel Y- den afhængige variabel. X- den uafhængige variabel – faste β- det græske bogstav ”beta” β 0 - skæringspunkt med y-aksen β 1 - hældningskoefficient iid- independent, identically distributed = uafhængig, identisk fordelte ε- det græske bogstav ”epsilon” ε i - det eneste stokastiske element i modellen

Simpel lineær regression – tegningen X Y XiXi } } YiYi { β1β1 1 β0β0 εiεi E[Y|X] = β 0 + β 1 X Modellen siger: E(Y|X) = β 0 + β 1 X V(Y|X) = σ 2 Y|X ~ N(β 0 + β 1 X, σ 2 ) Modellen er:

Endnu en tegning… X Y i.i.d. normalfordelte fejlled Y i |x i ~N(β 0 + β 1 x i,σ 2 ) i=1 x1x1 x1x1 x3x3 x2x2 x4x4 x5x5

Forudsætninger for SLR (1/3) Der er en lineær sammenhæng mellem X og Y. Indledende tjek: Scatter plot af (X,Y) – ser punkterne ud til at ligge langs en linie? x y y y y

Forudsætninger for SLR (2/3) Værdierne af de uafhængige variable X antages at være faste – dvs. ikke stokastiske. Mao. Antages X at være kendt eller målt uden ”støj”/”målefejl” Indledende tjek: Logisk sans.

Forudsætninger for SLR (3/3) Fejledene ε i antages være uafhængige og normalfordelte med middelværdi 0 og varians σ 2. Indledende tjek: Se efter indlysende problemer i scatter plot af (X,Y). x y y y y

Eksempel: Reklame budget vs salg Reklame budget (x)Salg (y) 40385 20400 25395 20365 30475 50440 40490 20420 50560 40525 25480 50510 Sammenhæng mellem det ugentlige reklame-budget og det ugentlig salg?

Scatterplot i SPSS Graphs→Chart Builder Vælg ’Simple Scatter’ Placer relevante variable på x og y akserne. Klik ’OK’

Scatterplot af data i SPSS Og hva’ så?

Estimation Model:  y i = β 0 + β 1 x i + ε i  ε i er i.i.d. N(0,σ 2 )  β 0, β 1 og σ 2 er modellens parametre – ukendte! Estimation af β 0 og β 1 svarer til at vælge den linie, der passer bedst til de observerede punkter. Estimerede regressions linie b 0 er estimat for β 0 og b 1 er estimat for β 1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi β 0 og β 1 ?

Residual led er den (lodrette) afstanden fra den estimerede linie til punktet (x i,y i ).. { Y X XiXiXiXi Den fittede regressionslinie

Mindste kvadraters metode Vi vil finde b 0 og b 1 så summen af de kvadrede fejl bliver mindst mulig. Dvs, vi vil minimere SSE er Sum of Squared Errors. Skrevet ud: Bemærk: Funktion af to variable (b 0 og b 1 ).

Minimering b0b0 SSE b1b1 SSE er en funktion af b 0 og b 1. Vi vil finde b 0 og b 1 så SSE er mindst mulig.

Minimering udført Definer funktion Q(b 0,b 1 ) = SSE. Dvs vi skal minimere Q(b 0,b 1 ). Fremgangsmåde:  Find de to partielle afledte og :  Sæt partielle afledte lig nul:  To ligninger med to ubekendte: Løs dem!

Omskrivning af afledte mht. b 0

Afledte mht. b 1

To ligninger med to ubekendte Indsæt (1) i (2) på b 0 ’s plads: Estimat af β 0 ! Isolér b o i (1)

Isoler b 1 : Estimat af β 1

Estimater per håndkraft xx2x2 yy2y2 xy 40160038514822515400 20400 1600008000 256253951560259875 204003651332257300 3090047522562514250 50250044019360022000 40160049024010019600 204004201764008400 50250056031360028000 40160052527562521000 2562548023040012000 50250051026010025500 410 15650 5445 2512925 191325

Estimerede regressions linie:

Samme historie i SPSS Analyze→Regression→Linear Placer den afhænige variabel (”y-variablen”) i ’Dependent’. Placer den uafhængige/ forklarende variable (”x-variablen”) i ’Indpendent(s)’. Klik ’OK’.

SPSS output Estimerede regressions linje: b0b0 b1b1

Regneformler For at gøre livet lidt lettere vil vi bruge følgende forkortelser/regneformler Bemærk: Nok at udregne følgende fem udtryk:

Lidt regneregler Regneregel: Fordi: Konsekvens:

Estimaternes fordeling Estimatoren B 1 svarende til estimatet b 1 er Bemærk at Y’erne ”store”, dvs de er stokastiske variable, derfor er B 1 også er en stokastisk variabel. Estimator: Stokastisk variabel. Estimat: ”Fast tal”, dvs. ej stokastisk. Opnået ved at ”indsætte” observationerne i estimatoren.

Estimatoren B 1 ’s fordeling Hvis den lineære regressions model er sand gælder der for estimatoren B 1 : Middelværdi: Varians: Fordeling: Bemærk: Når SS x er stor så er S b1 lille!

Plads til udregninger…

Estimatoren B 0 ’s fordeling Estimatoren B 0 svarende til estimatet b 0 er Middelværdi Varians Fordeling

Estimation af σ 2 – variansen for fejledene I foråret estimerede vi variansen i en uafhængig stikprøve ved For simpel lineær regression bruger vi MSE = Mean Squared Error Antal frihedsgrader ”Minus én”, da s 2 involverer ét estimat, nemlig. ”Minus to”, da s 2 involverer to estimater, nemlig b 0 og b 1.

Udregning af SSE Hermed opnår vi Som desuden er en unbiased estimator for σ 2.

Næste gang… Konfidensintervaller for parametre Test af hypoteser Korrelation

Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.

Lignende præsentationer

Præsentationer af emnet: "Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation.

Lignende præsentationer

Præsentationer af emnet: "Repetition Forårets højdepunkter…. Simpel Lineær Regression Simpel lineær regression: Mindste kvadraters metode Kovarians og Korrelation."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback