Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Ugrupperede observationer Middelværdi, varians og spredning

Lignende præsentationer


Præsentationer af emnet: "Ugrupperede observationer Middelværdi, varians og spredning"— Præsentationens transcript:

1 Ugrupperede observationer Middelværdi, varians og spredning

2 Varians Nu er der jo ikke lige mange observationer i hvert interval, derfor må vi vægte disse forskelle: 12%*(8-10,59)2+15%*(9-10,59)2+21%*( )2+20%*(11-10,59)2+18%*(12-10,59)2+14%*(13-10,59)2=2,46 Dette tal kaldes observationssættets varians: Var(X)=2,46 Hvad fortæller Var(X) ? Hvorfor tager vi kvadratet på forskellen mellem middelværdi og observation?

3 Spredning Vi tager nu kvadratroden af variansen:
Og får spredningen, betegnet med det græske bogstav sigma Spredningen kaldes også standardafvigelsen

4 Forskellige observationssæt
5 3 1,50% 6 4 2,00% 3,50% 7 7,00% 8 10 5,00% 12,00% 9 30 15,00% 27,00% 42 21,00% 48,00% 11 40 20,00% 68,00% 12 36 18,00% 86,00% 13 20 10,00% 96,00% 14 3,00% 99,00% 15 2 1,00% 100,00% 200 1 Her har jeg lavet et mere spredt sæt, lad os se på forskelle i middelværdi, varians og spredning

5 Først stolpediagrammer
Middelværdi: 10,59 Middelværdi:10,52 Beregn varians og spredning for andet observationssæt!

6 Varians og spredning Var(X)=1,5%*(5-10,52)2+…….. (resultat 3,6396)
1,50% 6 4 2,00% 7 3,50% 8 10 5,00% 9 30 15,00% 42 21,00% 11 40 20,00% 12 36 18,00% 13 20 10,00% 14 3,00% 15 2 1,00% Var(X)=1,5%*(5-10,52)2+…….. (resultat 3,6396) Sammenlignet med første observationssæt får vi altså en større varians og en større spredning som forventet!

7 Udregning af varians Summen af frekvenserne er 100%=1
3.Observationssæt x 9 50 25% 10 100 50% 11 Summen af frekvenserne er 100%=1 Middelværdien E(X)=μ=9*25%+10*50%+11*25% Var(X)= 25% * (9-μ)2 + 50% *(10-μ)2 + 25% * (11-μ)2 Hvis vi ganger parenteserne ud fås: 25%*(92+μ2-2*9*μ) + 50%*(102+μ2-2*10*μ) + 25%*(112+μ2-2*11*μ) = μ2 *(25%+50%+25%) -2μ*(9*25% + 10*50% + 11*25%)+ 25%*92+50%*102+25%*112 Altså er Var(X)=μ2-2μ* μ +25%*92+50%*102+25%*112 Sidste 3 led (grønne) er middelværdien af X2 derved får vi: Var(X)= - μ2 + E(X2) = E(X2) – E(X)2 og spredningen σ(X)=

8 Varians og spredning Var(X)= E(X2)-E(X)2 σ(X)=

9 I regneark: Antal (x) Frekvens (f) x*f x^2 x^2*f 8 0,12 0,96 64 7,68 9
0,15 1,35 81 12,15 10 0,21 2,1 100 21 11 0,2 2,2 121 24,2 12 0,18 2,16 144 25,92 13 0,14 1,82 169 23,66 E(X)= 10,59 E(X)^2 112,1481 E(X^2)= 114,61 Var(X)=E(X^2) - E(X)^2= 2,4619 σ(X)=  1,57

10 Grupperede observationer
Hvis talmaterialet er grupperet: obs.interval Int. Midtp m Frekvens f m*f m^2 m^2*f ]10;12] 11 0,1 1,1 121 12,1 ]12;14] 13 0,175 2,275 169 29,575 ]14;16] 15 0,375 5,625 225 84,375 ]16;18] 17 0,2 3,4 289 57,8 ]18;20] 19 0,15 2,85 361 54,15 μ=E(X)= 15,25 E(X^2)= 238 Var(X)= E(X^2)-E(X)^2= 5,4375

11 Lorentz-diagrammer Lorentz-diagrammer bruges til at illustrere hvor skæv en fordeling er. Bemærk vi forventer en jævn fordeling! Vi ser på indkomstfordelingen for ægtepar og enlige: Procent af befolk. Ægtepar Enlige 10% 3% 1% 20% 8% 30% 14% 40% 22% 15% 50% 21% 60% 41% 70% 52% 44% 80% 66% 59% 90% 76% 100% Lorentz-Indeks er forholdet mellem arealet mellem de to kurver og arealet under diagonal.

12 Arealet under diagonalen er en retvinklet trekant, som derfor har arealet:
½*100*100= 5000, For at finde arealet mellem kurverne skal man tælle tern eller finde en regneforskrift og integrere. Lorentz-indekset er altså afhængigt af hvor stort arealet mellem kurverne er - jo større areal des større indeks, og dermed des skævere fordeling! Det ses at enliges indkomstfordeling er mere skæv end ægtepars, da arealet mellem kurverne er større.

13 Model v.hj.a. regression Hvis vi vil finde arealet mellem kurverne må vi finde en regneforskrift for fordelingen, jeg prøver med potensfordelingen:

14 Regression

15 Polynomiel model Her får vi den største værdi for R2

16 Derive Jeg vil afprøve modellen i Derive, så jeg indtaster formlerne og tegner grafen

17 Derive

18 Opgave Udfør samme procedure, dvs bestem arealet mellem kurverne, for ægtepar! Bestem bedste model i regneark Indsæt formlen i Derive Beregn integralet mellem formlen og linjen G(x)=x.

19 Projekt 1787 1834 1840 1845 1850 1855 1860 1870 Mænd 0-9 år 97303 143241 146840 158339 164356 177572 195273 208754 10-19 år 72546 130169 132218 129374 134564 144047 150039 175222 20-29 år 69383 98674 108107 121019 113485 118976 126351 135180 30-39 år 59627 81998 86162 87376 97647 108815 111782 114116 40-49 år 48150 58096 65242 72619 76996 77880 87392 100834 50-59 år 35824 46903 45505 48005 53664 59925 63710 74604 60-69 år 22527 29468 31322 32820 32481 34549 38462 46604 70-79 år 9143 13385 14388 14443 15739 16545 16237 20805 80-89 år 1598 3189 3216 3383 3317 3419 3761 4276 90-99 år 94 153 203 187 188 195 180 221 100- år 2 4 7 3 1 Kvinder 97283 140897 144950 155516 162126 175147 191475 203931 72509 127456 129754 126972 131554 141107 147585 173069 72889 100498 110496 122840 125447 123545 129728 142521 57171 81896 86264 88084 97697 109236 112443 118569 47726 62042 68524 74269 78001 79162 88234 102235 36819 50574 50228 52703 57263 62790 66780 77657 24911 34294 36574 38588 38476 40540 44246 52983 11506 16299 18061 18559 19442 20930 20860 25900 2833 4307 4657 4863 4941 5080 5659 6465 248 306 352 354 384 349 494 8 6 9 5

20 Projekt Dette er en statistik over aldersfordelingen i befolkningen fra 1787 til 1870. Kan man lave Lorentz-diagrammer over materialet?


Download ppt "Ugrupperede observationer Middelværdi, varians og spredning"

Lignende præsentationer


Annoncer fra Google