Introduktion Deskriptiv statistik Sandsynslighedregning

Slides:



Advertisements
Lignende præsentationer
Kombinatorik, sandsynlighed og statistik
Advertisements

Repetition Goodness of Fit Uafhængighed i Kontingenstabeller
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Hypotese test – kapitel 6 (Signifikans test)
Anvendt Statistik Lektion 3
Kombinatorik, sandsynlighed og statistik
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Anvendt Statistik Lektion 4
Basal statistik 24. okt Tom Bendix Videncenter for
Akademi Merkonomer Statistik Aften 1
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Matematikseminar foråret 2009
Anvendt Statistik Lektion 6
Anvendt Statistik Lektion 2
Statistik Lektion 3 Simultan fordelte stokastiske variable
Anvendt Statistik Lektion 5
Sammenligning af to grupper
Sammenligning af to grupper – kapitel 7
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Anvendt Statistik Lektion 3
Anvendt Statistik Lektion 6
SPSS: basale dataanalyser
Statistik.
Statistik og sandsynlighedsregning
Case.
Statistik Lektion 5 Log-lineære modeller.
STATISTIK Nat og Rebecca .
Anvendt Statistik Lektion 2
Statistik Lektion 6 Konfidensinterval for andele og varians
Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II 5. Lektion Log-lineære modeller.
Statistik – Lektion 2 Uafhængighed Stokastiske Variable
Statistik Lektion 3 Bernoulli og binomial fordelingerne
Statistik Kristine og Søren.
Sandsynligheder Udfald og hændelser Sandsynligheder Additionsreglen
Statistik for geografer
Statistik Lektion 4 Kovarians og korrelation Mere om normalfordelingen
Statistik for geografer
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Hypotesetest Hypotesetest og kritiske værdier Type 1 og Type 2 fejl
Multipel Lineær Regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning
Statistik for geografer
Bernoulli og binomial fordelingerne
Kombinatorik, sandsynlighed og statistik
Carsten Stig Poulsen1 HA 4. semester Markedsanalyse 3. gang Torsdag d. 23. april 2009.
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber
Statistik for geografer
Grundlæggende teoretisk statistik
Statistik for geografer
Statistik Lektion 2 Betinget sandsynlighed Bayes’ regel
Statistik for geografer Lektion 6. Sandsynlighedsregning Statistisk eksperiment Udfald Udfaldsrum Hændelse Statistisk eksperiment Udfald Udfaldsrum Hændelse.
Kombinatorik, sandsynlighed og statistik
Betinget sandsynlighed Bayes’ regel Diskrete stokastiske variable
Lektion 2. Definitioner En stikprøve (sample) Vi ønsker at generalisere ud fra en stikprøve Stikprøvefejls (samplings-error) Tilfældige fejl Systematikse.
Statistik II 4. Lektion Logistisk regression.
KM2: F41 Kvantitative metoder 2 Den simple regressionsmodel 14. februar 2007.
Statistik II - PM5 Fokus: Analyse af kategoriske variable ● Logistisk regression ● Log-lineære modeller Kursets opbygning: ● 1 ECTS forelæsninger ● 1 ECTS.
Ellen Holm, Forskningscafé
Grupperede observationssæt
Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Statistik niveau E og F Lars A. Clark.
Program – dag 2 (11. april 2011) Dag 2:
Anvendt Statistik Lektion 6
Teoretiske kontinuerte fordelinger
Præsentationens transcript:

Introduktion Deskriptiv statistik Sandsynslighedregning

Introduktion Kasper K. Berthelsen, Institut f. Mat. Fag 8 Kursusgange Individuel mundtlig eksamen (7-skala) Udgangspunkt i opgaver Software: SPSS – I kan hente en CD hos…

Flyskræk! Passer overskriften? Er du tryg ved at flyve? Politiken 6/12-’07 Er du tryg ved at flyve? Ja: 86% i 2005 83% i 2007 Er der virkelig sket en ændring eller kunne det lige så godt være tilfældigt? Svaret kommer til sidst i kurset ;-)

BMI blandt mænd og kvinder (i Kbh) BMI = vægt/højde2 Er der en signifikant forskel i middel BMI for mænd og kvinder?

Deskriptiv versus inferential statistik Deskriptiv statistik: Metoder til at organisere og præsentere data på en informativ måde. Inferential statistik Metoder til at konkludere noget ud fra data. Eksempel: Hvad er middel-længden af en hugorm? Er den større en 50?

Nogle definitioner Population: Mængden af alle ”individer” vi er interesserede i. fx alle virksomheder i DK Parameter: Et deskriptivt mål for populationen (for eksempel middelværdi og varians). fx gennemsnits antal ansatte Sample/stikprøve: Mængde af data taget fra en delmængde af populationen fx 10 tilfældigt udvalgte virksomheder Statistik: Et deskriptivt mål for stikprøven. fx gennemsnits antal ansatte blandt de 10. Variabel: En karakteristik af populationen eller stikprøven fx antal ansatte, omsætning, region, type

Diskrete og kontinuerte data Diskrete data Katagoriske data, for eksempel: Hvilken øjenfarve? Brun Blå Grøn Grå Kontinuerte data Data, der er reelle tal, eks: Højde Vægt Temperatur Hastighed Osv....

Data hierarki Interval skala fx. højde. Data kan placeres på en skala, hvor man kan sammenligne afstande mellem data punkter. Kan også behandles som ordinale eller nominale data Ordinal skala fx. løngruppe (lav, middel, høj) Data kan ordnes på en skala. Beregninger kan baseres på ordningen. Kan opfattes som nominale data. Nominal skala fx. farve (rød,grøn,blå) Kun beregninger baseret på antal obs. i hver kategori må udføres. Kan ikke opfattes som ordnede eller interval data.

Percentiler og kvartiler Den P’te percentil af en mængde data punkter, er den værdi hvor P % af dataene ligger under. Positionen af den P’te percentil er givet ved (n+1)P/100, hvor n er antallet af data punkter. Kvartiler er de procent point, der inddeler data i kvarte. 1. kvartil er 25 percentilen. Under denne ligger 25 % af data. 2. kvartil er 50 percentilen. Under denne ligger 50 % af data. Kaldes også medianen. 3. kvartil er 75 percentilen. Under denne ligger 75 % af data. Den interkvartile range defineres som afstanden mellem den første og den tredje kvartil.

Ordinale data - karakterer

Central lokation i stikprøve Stikprøvens størrelse: n Gennemsnit: Interval data Median: Den midterste observation Interval og ordinal Mode: Den observation, der forekommer med størst frekvens Interval, ordinal og nominal Frekvens = antal gange en observation forekommer SPSS: Analyze→Descriptive Statistics→Frequencies

Variation (interval data) Range: største – mindste observation Stikprøve varians Standard afvigelse Bemærk: n-1 og ikke n.

Populations parametre Deskriptive mål for populationen Populationens størrelse: Populations middelværdi: Populations varians: Populations spredning: Bemærk: N og ikke N-1.

Grafik præsentation: Histogram Antal $ brugt af 184 kunder i en butik. 31 kunder brugte for mellem 350$ og 450 $ SPSS: Graphics→…

Interquartile Range (IQR) Box Plot Et Box Plots Anatomi Smallest data point not below inner fence Largest data point not exceeding inner fence Ekstrem Outlier * o X X Q1 Median Q3 Inner Fence Outer Fence Inner Fence Outer Fence Q1-1.5(IQR) Interquartile Range (IQR) 50% af data Q3+1.5(IQR) Q1-3(IQR) Q3+3(IQR)

Box Plots for BMI

Mængder Hændelser Sandsynligheder Regler for sandsynligheder

Sandsynligheder En sandsynlighed er et kvantitativt mål for usikkerhed – et mål der udtrykker styrken af vores tro på forekomsten af en usikker begivenhed. En sandsynlighed er et reelt tal mellem 0 og 1. 0 = sker aldrig 1 = sker altid Ex: Sandsynligheden for regn i morgen er 0,5 Ex: Sandsynligheden for at få 7 rigtige i lotto er 0,000000001 I modsætning til deterministiske hændelser: Det er juleaften den 24. december I morgen står solen op kl. 8.04 Forskellige statistiske retninger: Klassisk Frekventistisk (jeres, fortrinsvist) Subjektiv (Bayesiansk) Den klassiske sandsynlighedsteori blev udviklet i 1600 tallet – inspireret af Casino spil!

Lidt om mængder En mængde er en samling af elementer Eksempel: A={1,2,3,4} eller A={plat, krone} Den tomme mængde A=Ø, indeholder ingen elementer Den universelle mængde S, indeholder alle elementer Komplementet af en mængde A, er mængden Ā, der indeholder alle elementer i S, der ikke er i A. Eksempel: S={1,2,3,4,5,6} og A={1,4,6}. Så er Ā={2,3,5} S 2,3,5 A 1, 4, 6 Ā Venn Diagram

Mere om mængder Fællesmængden af A og B, A ∩ B, er mængden, der indeholder de elementer, der er i både A og B Foreningsmængden af A og B, A U B, er mængden, der indeholder de elementer, der er i A eller B eller begge S A={1,2,3} B={3,4,5} A ∩ B={3} A B A ∩ B 1, 2 3 4, 5 6 S A={1,2,3} B={3,4,5} A U B={1,2,3,4,5} A B A U B 1, 2 3 4, 5 6

Den tomme mængde To mængder er disjunkte, hvis fællesmængden A ∩ B=Ø S 1, 2, 3 4, 5 6

Mere om sandsynlighed Eksperiment: Udfald: Handling, der leder frem til et af flere mulige udfald Fx. Kast med en terning eller Vælg 10 tilfældige virksomheder. Udfald: Observation eller måling Fx: Antal øjne på en terning eller 10 navngivne virksomheder.

Mere om sandsynlighed Udfaldsrum: En liste af mulige udfald af eksperimentet, lig med den universelle mængde S={o1,o2,…,ok} Udfaldene skal være ”udtømmende” Eksempler: Terningkast: S={1,2,3,4,5,6} – S={1,2,3,4,5} duer ikke! Møntkast: S={plat, krone} – S={plat} duer ikke Udfaldene skal være disjunkte Terningkast S={1,2,3,4,5,6} – S={1-2,2-3,3-4,4-5,5-6} dur ikke! Oi er i’te udfald af k mulige.

Hændelser En simpel hændelse er et udfald i udfaldsrummet Eksempel: Terningkast – en 6’er er en simpel hændelse En hændelse er en mængde af en eller flere simple hændelser i et udfaldsrummet Eksempel: Terningkast – A={2,3,4} er en hændelse Sandsynligheden for en hændelse, A, betegnes P(A) P(A) er summen af sandsynlighederne for de simple hændelser i A Eksempel: P(A)=P(2)+P(3)+P(4)=1/6+1/6+1/6=3/6

Hændelser Antag at alle simple hændelser forekommer med lige stor sandsynlighed. Da er sandsynligheden for en hændelse A givet ved: Eksempel: Terningkast – lige sandsynlighed for alle udfald. Lad A={1,2,4} n(A) = 3 n(S) = 6 P(A) = 3/6 = 0.5

Regler for sandsynlighed Givet et udfaldsrum S={o1,o2,…,ok} da skal sandsynlighederne opfylde: Eksempel: Terningkast – lige sandsynlighed for alle udfald:

Flere regler Sandsynligheden for Ā: P(Ā)=1-P(A) Sandsynligheden for Ø: Sandsynligheden for S: P(S)=1 Fællesmængden for hændelserne A og B, A ∩ B, er hændelsen, der forekommer, når både A og B forekommer Sandsynligheden for A ∩ B, P(A ∩ B), kaldes den simultane sandsynlighed (joint probability)

Betinget sandsynlighed Den betingede sandsynlighed P(A|B) er sandsynligheden for hændelsen A, givet at vi ved at hændelsen B allerede er indtruffet:

Eksempel (Kontingenstabel) Frekvenser AT& T IBM Total Telecommunication 40 10 50 Sandsynligheden for at et projekt udføres af IBM givet at det er et telekommunikations-projekt: Computers 20 30 50 Total 60 40 100 Sandsynligheder AT& T IBM Total Telecommunication .40 .10 .50 Computers .20 .30 .50 Total .60 .40 1.00

Additionsreglen Sandsynligheden for foreningen mellem to mængder A og B, A U B, er givet som: P(A U B) = P(A) + P(B) – P(A ∩ B) Hvis A og B er disjunkte hændelser, er P(A ∩ B) = 0 og dermed: P(A U B) = P(A) + P(B) Eksempel: Sansynlighed for at et projekt er IBM eller Telekom: