Ugrupperede observationer Middelværdi, varians og spredning
Varians Nu er der jo ikke lige mange observationer i hvert interval, derfor må vi vægte disse forskelle: 12%*(8-10,59)2+15%*(9-10,59)2+21%*(10-10.59)2+20%*(11-10,59)2+18%*(12-10,59)2+14%*(13-10,59)2=2,46 Dette tal kaldes observationssættets varians: Var(X)=2,46 Hvad fortæller Var(X) ? Hvorfor tager vi kvadratet på forskellen mellem middelværdi og observation?
Spredning Vi tager nu kvadratroden af variansen: Og får spredningen, betegnet med det græske bogstav sigma Spredningen kaldes også standardafvigelsen
Forskellige observationssæt 5 3 1,50% 6 4 2,00% 3,50% 7 7,00% 8 10 5,00% 12,00% 9 30 15,00% 27,00% 42 21,00% 48,00% 11 40 20,00% 68,00% 12 36 18,00% 86,00% 13 20 10,00% 96,00% 14 3,00% 99,00% 15 2 1,00% 100,00% 200 1 Her har jeg lavet et mere spredt sæt, lad os se på forskelle i middelværdi, varians og spredning
Først stolpediagrammer Middelværdi: 10,59 Middelværdi:10,52 Beregn varians og spredning for andet observationssæt!
Varians og spredning Var(X)=1,5%*(5-10,52)2+…….. (resultat 3,6396) 1,50% 6 4 2,00% 7 3,50% 8 10 5,00% 9 30 15,00% 42 21,00% 11 40 20,00% 12 36 18,00% 13 20 10,00% 14 3,00% 15 2 1,00% Var(X)=1,5%*(5-10,52)2+…….. (resultat 3,6396) Sammenlignet med første observationssæt får vi altså en større varians og en større spredning som forventet!
Udregning af varians Summen af frekvenserne er 100%=1 3.Observationssæt x f 9 50 25% 10 100 50% 11 Summen af frekvenserne er 100%=1 Middelværdien E(X)=μ=9*25%+10*50%+11*25% Var(X)= 25% * (9-μ)2 + 50% *(10-μ)2 + 25% * (11-μ)2 Hvis vi ganger parenteserne ud fås: 25%*(92+μ2-2*9*μ) + 50%*(102+μ2-2*10*μ) + 25%*(112+μ2-2*11*μ) = μ2 *(25%+50%+25%) -2μ*(9*25% + 10*50% + 11*25%)+ 25%*92+50%*102+25%*112 Altså er Var(X)=μ2-2μ* μ +25%*92+50%*102+25%*112 Sidste 3 led (grønne) er middelværdien af X2 derved får vi: Var(X)= - μ2 + E(X2) = E(X2) – E(X)2 og spredningen σ(X)=
Varians og spredning Var(X)= E(X2)-E(X)2 σ(X)=
I regneark: Antal (x) Frekvens (f) x*f x^2 x^2*f 8 0,12 0,96 64 7,68 9 0,15 1,35 81 12,15 10 0,21 2,1 100 21 11 0,2 2,2 121 24,2 12 0,18 2,16 144 25,92 13 0,14 1,82 169 23,66 E(X)= 10,59 E(X)^2 112,1481 E(X^2)= 114,61 Var(X)=E(X^2) - E(X)^2= 2,4619 σ(X)= 1,57
Grupperede observationer Hvis talmaterialet er grupperet: obs.interval Int. Midtp m Frekvens f m*f m^2 m^2*f ]10;12] 11 0,1 1,1 121 12,1 ]12;14] 13 0,175 2,275 169 29,575 ]14;16] 15 0,375 5,625 225 84,375 ]16;18] 17 0,2 3,4 289 57,8 ]18;20] 19 0,15 2,85 361 54,15 μ=E(X)= 15,25 E(X^2)= 238 Var(X)= E(X^2)-E(X)^2= 5,4375
Cov(X,Y)= E(X*Y)- E(X)*E(Y) Covarians Hvis vi ønsker at sammenligne to observationssæt X og Y, kan vi bestemme deres Covarians ved: Cov(X,Y)= E(X*Y)- E(X)*E(Y) Altså som middelværdien af produktet af observationerne minus produktet af de to middelværdier
Model v.hj.a. regression i regneark
Regression i regneark Marker de to observationssæt Vælg ”Diagram” Vælg XY-punkt Tegn grafen Højreklik på et af punkterne på grafen Vælg ”Tilføj tendenslinje” Klik på fanebladet ”Indstillinger”
Sæt hak i Vis ligning i diagram og i Vis R kvadreret
Bestemmelse af regressionslinje Vi kan ud fra to observationssæt også bestemme regressionslinjen y=ax+b ved hjælp af formler: Vi bestemmer a ved: Og derefter bestemme linjens ligning ved: Herved bestemmes b altså som E(Y)-a*E(X)
Korrelationskoefficienten Korrelationskoefficienten er et mål for hvor god sammenhæng der er mellem X og Y. Denne bestemmes ved: Regnearket beregner R2, som skal ligge tæt på 1, her skal r ligge tæt på -1 eller 1, for at vi vil finde en god sammenhæng.
Hvad kan regnearket beregne?