Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen

Slides:



Advertisements
Lignende præsentationer
Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Advertisements

Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Statistik Lektion 6 Konfidensinterval for varians Hypoteseteori
Anvendt Statistik Lektion 4
Statistik og sandsynlighedsregning
Statistik Lektion 17 Multipel Lineær Regression
Normalfordelingen Man siger at et talmateriale er normalfordelt, når der optræder mange observationer i midten af materialet og få i yderkanterne. Her.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Matematikseminar foråret 2009
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 4. november 2005.
Statistik og sandsynlighedsregning
Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Signifikanstest ved (en eller) to stikprøver
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 7 Hypotesetest og kritiske værdier
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 7
Grundlæggende teoretisk statistik
Statistik for geografer
Opsamling Simpel/Multipel Lineær Regression Logistisk Regression
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Bernoulli og binomial fordelingerne
Økonometri 1: Inferens i den lineære regressionsmodel1 Økonometri 1 Inferens i den lineære regressionsmodel 1. oktober 2004.
Statistik Lektion 7 Hypotesetest og kritiske værdier
Økonometri 1: Specifikation og dataproblemer1 Økonometri 1 Specifikation, og dataproblemer 9. november 2004.
Økonometri – lektion 5 Multipel Lineær Regression
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Grundlæggende teoretisk statistik
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Økonometri – lektion 8 Multipel Lineær Regression
Simpel Lineær Regression
Økonometri – lektion 4 Multipel Lineær Regression Model Estimation Inferens.
Økonometri 1: Inferens i den multiple regressionsmodel1 Økonometri 1 Inferens i den multiple regressionsmodel 3. marts 2003.
Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable
Simpel Lineær Regression
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 14. september 2004.
Grundlæggende teoretisk statistik
Statistik Lektion 8 Test for ens varians.
Økonometri 1: F51 Økonometri 1 Den multiple regressionsmodel 22. september 2006.
Økonometri 1: Den simple regressionsmodel Økonometri 1 Den simple regressionsmodel 13. februar 2003.
Økonometri 1: Heteroskedasticitet1 Økonometri 1 Heteroskedasticitet 31. marts 2003.
Normalfordelingen og Stikprøvefordelinger
Kvantitativ metode del 1 Gymnasielærer-kursus forår 2007 Aalborg Universitet Sammenhænge ml. variabler, styrke og signifikans Tirsdag den 20. marts, kl.
Statistik II 4. Lektion Logistisk regression.
Økonometri 1: F71 Økonometri 1 Inferens i den lineære regressionsmodel 29. september 2006.
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Anvendt Statistik Lektion 4
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 3
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen Den centrale grænseværdisætning Stikprøvefordelingen

Repetition: Kontinuerte stokastiske variable f (x) er en sandsynlighedstætheds-funktion, hvis Fordelingsfunktion Sandsynlighed for interval f(x) F(x) = P(X≤x) F(x) P(2 ≤x≤3)

Simultan kumulativ fordelingsfunktion og uafhængighed Definition: Lad X1,X2,…,Xn være stokastiske variable. Da er den Simultane kumulativ fordelingsfunktion givet ved Dvs. sandsynligheden for at X1 er mindre end x1, samtidig med at X2 er mindre end x2 osv. Definition: De stokastiske variable X1,X2,…,Xn er uafhængige hvis og kun hvis hvor F(xi) = P(Xi ≤ xi) er den marginale fordelingsfunktion for Xi.

Kovarians Definition: Lad X og Y være stokastiske variable (kontinuerte eller diskrete), med middelværdier E[X]=mX og E[X]=mY. Da er kovariansen mellem X og Y givet ved Sætning: Hvis X og Y er uafhængige stokastiske variable, så er Cov(X,Y) = 0. Det modsatte gælder generelt ikke. Bemærk: Der gælder at Cov(X,X) = Var(X).

Korrelation Definition: Lad X og Y være stokastiske variable (diskrete eller kontinuerte) med varianser Var[X] = s2X og Var[Y] = s2Y. Da er korrelationen mellem X og Y givet ved ▪ Korrelationen tager værdier i intervallet [-1;1] ▪ Korrelationen beskriver graden af lineær sammenhæng. ▪ Både r = 1 og r = - 1 betyder perfekt lineær sammenhæng ▪ r > 0 : store x med store y og små x med små y ▪ r < 0 : store x med små y og små x med store y ▪ r = 0 : ingen lineær sammenhæng mellem X og Y

Linearkombinationer af to stok. var. Sætning: Lad X og Y være to stokastiske variable (kontinuerte eller diskrete) med E[X] = mX, E[Y] = mY, Var[X] = s2x og Var[Y] = s2Y. Da gælder og Hvis X og Y er uafhængige gælder

Sum af stokastiske variable Sætning: Lad X1, X2,…,Xn være stokastiske variable med middelværdier μ1, μ2,…, μn og varianser s12, s22,…, sn2. Middelværdien af en sum Variansen af en sum, hvis X1, X2,…,Xn er indbydes uafhængige Hvis afhængige

Repetition: Normal fordelingen Dens kendetegn er: Klokkeformet og symmetrisk omkring dens middelværdi Middelværdi=median=mode Den er karakteriseret ved en middelværdi μ og varians σ² (eller standard afvigelse σ). X~N( m , s² ) betyder, at X følger en normal fordeling med middelværdi μ og varians σ² Arealet under kurven indenfor zσ af middelværdien, er den samme for enhver normal fordeling, uanset middelværdi og standard afvigelse. Er uanset parametre værdier, defineret for alle x (dvs x kan antage værdier fra minus uendelig til plus uendelig)  

Standard normal fordelingen Standard normal fordelingen, er normalfordelingen med middelværdi μ=0 og standard afvigelse σ=1, Z~N(0,1²) Standard Normal fordeling . 4 . 3 =1 { z ) ( f . 2 . 1 . - 5 - 4 - 3 - 2 - 1 1 2 3 4 5  = 0 Z NB: En standard normal fordelt stokastisk variabel betegnes sædvanligvis Z.

Ny type spørgsmål Eksempel fra sidst: Find P(Z ≤ -1.76 ) Nyt eksempel: Find en værdi z, så P(Z ≤ z) = F(z) = 0.90 F(z) = 90% z Tabelløsning: I Tabel 1 find z, så F(z) er tættest mulig på 0.90. F(1.28) = 0.8997 og F(1.29) = 0.9015. Dvs. Svaret er et sted mellem 1.28 og 1.29…

Ny type spørgsmål - fortsat Eksempel igen: Find en værdi z, så P(Z ≤ z) = 0.90. 90% z Rcmdr løsning: Distribution → Continuous distributions → Normal distribution → Normal quantiles… R løsning: qnorm(0.90,mean=0,sd=1)

Transformation til Standardnormal En lineær transformation af en normalfordelt stokastisk variabel er stadig en normalfordelt stokastisk variabel. Lad X ~ N(m,s2) og definer Y = aX + b, så gælder E[Y] = aE[X] + b = am + b V[Y] = a2V[X] = a2s2 Y ~ N(am + b, a2s2) Lad X ~ N(m,s2) og definer Z = (X-m)/s, så gælder E[Z] = 0 V[Z] = 1 Z ~ N(0,1)

Transformation: Eksempel Antag studerendes score til eksamen er normalfordelt med middelværdi 60 og standardafvigelse 15. Dvs. score X ~ N(60,152) Spørgsmål: Find x, så P(X ≤ x) = 0.90 Ide: Transformer problemet til et, der vedrører en standard normal-fordelt stokastisk variabel. Vi ved allerede P(Z ≤ 1.282 ) = 0.90 Dvs. 90% af de studerende har en score under 79.23.

Sum af normalfordelte stok. var. Antag X1,…, Xn er uafhængige stokastiske variable, hvor Dvs. Xi er normal-fordelt med middelværdi mi og varians si2. Regel: Summen af normal-fordelte stokastiske variable er også en normal-fordelt stokastisk variabel. Definer S = X1 + ⋯ + Xn . Da gælder

Statistik Statistisk Inferens: Udtale os om værdier af populations parametre Teste hypoteser om værdier af populations parametre Tage beslutninger på basis af stikprøver Drage konklusioner om egenskaber for en population... …på basis af observationer i en stikprøve, en del af populationen.

The Literary Digest Poll (1936) Ikke biased stikprøve Ikke biased, repræsentativ stikprøve fra hele populationen. Demokrater Republikanere Population Biased stikprøve Biased, ikke repræsentativ stikprøve af folk, der har telefon og/eller bil og/eller læser Digest. Folk, der har telefon og/eller bil og/eller læser Digest. Demokrater Republikanere Population

Data indsamling Data indsamling Direkte observationer Eksperimenter Registre Spørgeskemaer Et problem med spørgeskemaer er nonrespons bias – hvad gør man når folk ikke vil svare? Typisk vil gruppen af folk, der ikke svarer være anderledes end folk, der svarer. Lav for eksempel en opfølgning på spørgeskemaet ved at ringe til folk. Folk, der slet ikke svarer, vil ligne dem der svarer anden gang mere end de ligner dem, der svarer første gang (men ikke helt). Man kan også ”over sample” dem man tror ikke vil svare (hvis man ved det) og dermed have større chance for at nogen af dem svarer.

Hvordan laver man en stikprøve Simpel stikprøve I en simpel stikprøve er observationerne udvalgt, så enhver anden stikprøve med samme antal observationer, er lige så sandsynlig at vælge Observationerne kan for eksempel vælges ved hjælp af en ”Random numbers ” tabel man kan finde i nogle bøger. 10495, 57931, 00234, 35640,……. Stratificeret stikprøve Opdele populationen i disjunkte mængder (strata) og tage en simpel stikprøve fra hver strata. Hvis man for eksempel ved, at der er forskel på hvordan mænd og kvinder svarer og der i populationen er 54 % mænd og 46 % kvinder.

Stikprøvefordeling Antag at vi vil udtale os om en populationsparameter (fx middelværdien m) på baggrund af en stikprøve statistik (fx. stikprøve-gennemsnittet ). Vores konklusion skal tage i betragtning, at værdien af ændrer sig for hver ny tilfældig stikprøve Den tilfældig variation af stikprøve-statistikken (her gennemsnittet) betegnes stikprøve-fordelingen (af stikprøve-gennemsnittet)

Stikprøvefordeling: Eksempel En direktør har seks ansatte med ancienniteten målt i år: 2 4 6 6 7 8 Populationens gennemsnit er Vi udtager nu en stikprøve på to ansatte og udregner stikprøve-gennemsnittet. Bemærk: Vi kan udvælge to ansatte på 15 måder:

Stikprøvefordeling: Eksempel De 15 lige sandsynlige stikprøver og deres stikprøve-gennemsnit. De mulige gennemsnit og deres sandsynlighed. Stik-prøve Stikpr-genst Stikpr.gnst 2,4 3.0 4,8 6.0 2,6 4.0 6,6 6,7 6.5 2,7 4.5 6,8 7.0 2,8 5.0 4,6 7,8 7.5 4,7 5.5 Stikpr. gnst Sandsyn-lighed 3.0 1/15 4.0 2/15 4.5 5.0 3/15 5.5 6.0 6.5 7.0 7.5

Stikprøvefordeling: Eksempel Samme direktør og ansatte, men nu en stikprøvestørrelse på n = 5. Bemærk 1: Kun værdier tæt på populations-middelværdien er sandsynlige. Bemærk 2: Stikprøve-gennemsnittet tættest på populations-middelværdien er mest sandsynlig. Stikprøve Sandsynlighed 2,4,6,6,7 5.0 1/6 2,4,6,6,8 5.2 2,4,6,7,8 5.4 2/6 2,6,6,7,8 5.8 4,6,6,7,8 6.2

Stikprøve-fordeling Antag nu at vi tager en tilfældig stikprøve bestående af n observationer fra en meeeget stor population. Populationen har middelværdi m og varians s2. Vi betragter de enkelte observationer i stikprøven som stokastiske variable X1, X2,…,Xn. For hver observation Xi antager vi at E[Xi] = m og V[Xi] = s2. Hvad kan vi nu sige om fordelingen af stikprøve-gennemsnittet?

Stikprøve-gennemsnittets stikprøve-fordeling: Forventede værdi Lad de stokastiske variable X1, X2,…,Xn være en tilfældig stikprøve fra en population. Stikprøve-gennemsnittet af disse SV er Den forventede værdi af stikprøve-gennemsnittet er Dvs stikprøve-gennemsnittet i gennemsnit er populations-gennemsnittet…

Stikprøve-gennemsnittets stikprøve-fordeling: Varians Hvis stikprøvestørrelsen n er lille i forhold til populationens størrelse N kan vi antage at SV X1, X2,…,Xn er uafhængige. Variansen af stikprøve-gennemsnittet er da Bemærk: Jo større stikprøve, jo mindre varians. Hvis n er stor i forhold til N kan vi ikke antage uafhængighed. Variansen af stikprøve-gennemsnittet er da

Normal-fordelt Population Hvis populationen er normal-fordelt gælder Xi ~ N(m,s2) Da summen af normal-fordelte SV er en normal-fordelt SV har vi at Vi kan standardisere stikprøve-gennemsnittet: Udregnes som på forrige slide

Eksempel: Tændrør Producent påstår at levetiden for tændrør er normalfordelt med middelværdi 36.000 miles og SD 4.000 miles. En stikprøve af størrelse n = 16 har en gennemsnits-levetid på 34.500. Spørgsmål: Hvis producenten har ret, hvad er sandsynligheden for et stikprøvegennemsnit mindre end eller lig 34.500? Løsning: Tror vi på producentens påstande?

Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af nærme sig mere og mere en standard normal-fordeling. Tommelfinger-regel: n ≥ 30 er nok til en god tilnærmelse.

Den Centrale Grænseværdi Sætning (CLT) (Central limit theorem) Sætning: Lad X1, X2,…, Xn, er være n uafhængige stokastiske variable fra samme fordeling med middelværdi m og varians s2. Da gælder, at når stikprøvestørrelsen n øges, så vil fordelingen af nærme sig mere og mere en standard normal-fordeling. Tommelfingerregel: n = 30 er nok til en god tilnærmelse.

Eksempler Normal Uniform Skewed Population n = 2 n = 30 X  General

Java Eksempel Her er en animeret illustration af den centrale grænseværdi sætning. http://www.intuitor.com/statistics/CentralLim.html Prøv selv at google efter flere…

Acceptområde Antag vi har en population med middelværdi m og varians s2. Vi udtager en stikprøve, der er så stor at CLT ”virker”, dvs. Med lidt omskrivning får vi Hvor za/2 er defineret så P(Z>za/2) = a/2. Dvs. (1-a)100% sandsynlighed ligger i intervallet (acceptområdet)

Eksempel: Nok Espresso? Kafe Kjeld har købt en ny espresso-maskine! Producent påstår at hver kop espresso fylder i gennemsnit 30ml med en SD på 2ml. En stikprøve bestående af n = 36 kopper espresso har et gennemsnitsvolumen på sølle 29.3 ml. Spørgsmål: Skal Kafe Kjeld brokke sig?