Basic Data Analysis: Descriptive Statistics

Slides:



Advertisements
Lignende præsentationer
Forskning, formidling og andre færdigheder
Advertisements

Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Dagens program Opsamling (skalaer & deskriptiv analyse)
Dagens program  Emne: Tim Berners-Lees WWW koncept og deraf følgende innovationer Forbered hver for sig Præsenter og diskutér i grupper Fremlæggelse med.
Etiske & metodiske problemer i online research - kort diskussionsoplæg.
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Tekst starter uden punktopstilling For at få punkt- opstilling på teksten, brug forøg indrykning For at få venstre- stillet tekst uden punktopstilling,
Case: Sampling Define the population for the Choice of Education study Sample or census? Is the resulting sample a probability sample? Which of all the.
Kultur- og branchestudier
Magtteori I 7. September 2005.
Case.
Learning Objectives 5 Steps of a Significance Test Assumptions
Agenda 1.Informationer 1.Excel i fb.m. projekt 2 2.Reserver tid til projekt 2 3.Øvelse: a / b = c 2.Opsamling fra sidst 3.Estimation (konfidensintervaller)
Learning Objectives 5 Steps of a Significance Test Assumptions
Simulationsmodeller til vurdering af effekten af risikofaktorintervention Januar 2007 | Henrik Brønnum-HansenSide 1 CEEH ”kick-off”, januar 2007 Simulationsmodeller.
Fejl  Afleveringen  Stikprøvestørrelse  Type I-II Fejl  Styrkefunktionen.
Sociology and social media af: Mads, Emil, Caspar og Jos.
Overskrift her Navn på oplægsholder Navn på KU- enhed For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”.
Folksonomier: når brugerne samarbejder Eller Folksonomier: Når samarbejde mellem brugere er indlejret i informationssystemerne.
Opgave 53 Erhvervsøkonomi / Managerial Economics
Simulation og computerspil Selv-referentialitet og computerspil Bo Kampmann Walther
Præsentation af Aalborg Universitet 1 af 24 UWT seminar 2010 Jesper Ellerbæk Nielsen ”Combining C-band and X-band weather radars for accurate precipitation.
Electric power is electric particles moving through metal, semiconductor or graphite and special fluids (electrolysis). Some kind of gas are able to conduct.
Studievalgs- undersøgelse 2009 Et projekt gennemført som del af kurset Markedsanalyse på HD- studiet, Aalborg Universitet Carsten Stig Poulsen.
DATATYPER. For at tilpasse hvert felt i databasen til dets formål og dermed øge funktionalitet 1 bit er tilstrækkelig til at angive køn (0/1) men for.
Studievalgsundersøgelse Foråret 2009 Et projekt gennemført som del af kurset Markedsanalyse på HD- studiet, Aalborg Universitet Holdet på HD Marketing.
Ung i centrum Historical ”natural recovery” issues: 1.Does ”natural recovery” exist? 2.How common is ” natural recovery”?
Critical appraisal ” All scientific work is incomplete – whether it be observational or experimental. All scientific work is liable to be upset or modified.
Institut for Sprog, Kultur og Æstetik Engelsk, semester, Tekstanalyse og -historie Jens Kirk Session One: "An Introduction to the Analysis,
Informationssøgning Eksempler på nyttige hjemmesider.
Forretning og Ledelse lektion 7 Kultur og Strategi.
QA.  Først indløbne spørgsmål  Derefter er ordet frit  Own laptops in the exam: Rules do not say anything about this, but specify printed aids and.
Kjeld Svidt  Institut for Byggeri og Anlæg  Aalborg Universitet IT i Byggeriet Semester 6, kursusgang Databaser (1) Kjeld Svidt
Interview service in Statistics Denmark Structure and Surveys.
Saint Ambrose High School. Cut cylinders and cones – Standard Grade If you are sitting an SQA Credit paper in Graphic Communication, you will be required.
3. time Her beskæftiger vi os med John F. Sowas forklaring af erfaringsviden. John F. Sowa.
Digitale medier: formidling og design 22. februar 2007 Kvantitativ metode.
Sted og dato (Indsæt --> Diasnummer) Dias 1 Navn på enhed (Indsæt --> Diasnummer) Davenport et al. (2000) Vs Adelman et. Al (2002) Possible states for.
Slides for: Software requirements - Styles and techniques Soren Lauesen 6. Quality requirements January 2007 © 2002, Pearson Education retains the copyright.
OPERATIONEL ANALYSE AF WEBADFÆRD OAW – LEKTIONSGANG 4.
Dansk Data Arkiv Hans Jørgen Marker IASSIST 2005 DDI and Data Hans Jørgen Marker Senior Researcher Dansk Data Arkiv
 Jens Bennedsen 2002Objektorienteret systemudvikling GRASP mønstre Basale ansvarsplaceringsregler.
Statistik for geografer Lektion 8. Hvordan beskrives fordelingen?
ANALYSE AF WEBADFÆRD - OAW OAW – LEKTIONSGANG 4. ANALYSE AF WEBADFÆRD - OAW SUMMARY, LECTURE 3 (Extended) Common Log File Format Host, Ident, Authuser,
Mikkel deMib Svendsen Duplicate Content & Multiple Site Issue Mikkel deMib Svendsen
Center for Kliniske retningslinjer
Skift Typografi Marker tekst og klik TAB for at hoppe til næste typografi Klik SHIFT + TAB for at hoppe tilbage i typografierne 1. OVERSKRIFT 2. UNDEROVERSKRIFT.
1 (c) W. J. Dally Digital Design: A Systems Approach Lecture 12: Timing.
GIS and statistical data analysis Copenhagen September 11, 2013.
For at ændre ”Enhedens navn” og ”Sted og dato”: Klik i menulinjen, vælg ”Indsæt” > ”Sidehoved / Sidefod”. Indføj ”Sted og dato” i feltet for dato og ”Enhedens.
THE MENTORING JOURNEY.
Forskningstræning: Fra evidens til guidelines
Completing secondary education
Kvalitative metoder, forår kursusgang
Introduction to synopsis writing
Dansk HL7 CDA profil til deling af aftaler Data i en aftale
Incidence, risk and resilience for suicide attempts among children and youth born in and living in Denmark in 2007 By MSc. Erik Christiansen.
Compositional Design Principles “SemiCiv”
Phylogenetic trees -Tools in evolution biology
Software Testing Software testing.
Denitrification in the root zone
MaaS i Europe Rasmus Lindholm.
why this period? why not the same as for the international strategy
Hvor er værdien af intern kommunikation?
AIDA Reinsurance Working Party Meeting
Er det muligt at foretage et sikkert valg?
Thesis Critique Københavns Universitet er én institution – men det er langt fra en ensartet institution. De mange forskningsområder og forskellige uddannelser.
Samspil mellem moderne sygepleje og højteknologi på operationsstuen Profiler, kompetenceniveauer og adaptiv kapacitet Erik Elgaard Sørensen, Professor,
Præsentationens transcript:

Basic Data Analysis: Descriptive Statistics

Disposition for afrapportering Om undersøgelsens tilblivelse Undersøgelsens hovedresultater Materialets sammensætning Elevernes faglige profiler Mhp. en bestemt videreuddannelse? Supplering inden studiestart? Hvad skal der ske efter sommerferien? Faglige interesset Opdelt på hum, samf og tek-nat hovedområder Kriterier for valg af studium Faglige dimensioner Sociale dimensioner Praktiske forhold Ch 15

Disposition for afrapportering (fortsat) Valg af studieby Plan for valg Opfattelsen af forskellige studiebyer Alt-i-alt-vurdering af studiebyer Om matematik-økonomi-uddannelsen Hørt om denne Kendskab til, hvor man kan få uddannelsen Overvejet at påbegynde mat-øk? Specielt om studiet ved AAU Kendskab Kílde til kendskab Påbegyndelse af studium? Sandsynligheden for at begynde efter sommerferien. Ch 15

Types of Statistical Analyses Used in Marketing Research Data summarization: the process of describing a data matrix by computing a small number of measures that characterize the data set Four functions of data summarization: Summarizes the data Applies understandable conceptualizations Communicates underlying patterns Generalizes sample findings to the population Ch 15

Types of Statistical Analyses Used in Marketing Research

Types of Statistical Analyses Used in Marketing Research Five Types of Statistical Analysis: Descriptive analysis: used to describe the data set Inferential analysis: used to generate conclusions about the population’s characteristics based on the sample data Differences analysis: used to compare the mean of the responses of one group to that of another group Associative analysis: determines the strength and direction of relationships between two or more variables Predictive analysis: allows one to make forecasts for future events Ch 15

Types of Statistical Analyses Used in Marketing Research Hvis vi ændrer en bys image på en række dimensioner, hvor meget stiger vurderingen af byen så med? Hvis vi ændrer en bys image på én dimension, hvor meget stiger – alt andet lige - vurderingen af byen så med? Hvilken betydning har opfattelsen af studiebyer for valget heraf? Test af sammenhænge mellem undersøgelsesspørgsmål og kriterier undersøgelsesspørgsmål indbyrdes Vurdering af repræsentativitet fx ved test mod en kendt populationsfordeling på køn og alder Materialets sammensætning kriterier som køn og alder undersøgelsesspørgsmål

Understanding Data Via Descriptive Analysis Two sets of descriptive measures: Measures of central tendency: used to report a single piece of information that describes the most typical response to a question Measures of variability: used to reveal the typical difference between the values in a set of values Ch 15

Understanding Data Via Descriptive Analysis Measures of Central Tendency: Mode: the value in a string of numbers that occurs most often Median: the value whose occurrence lies in the middle of a set of ordered values Mean: sometimes referred to as the “arithmetic mean”; the average value characterizing a set of numbers Ch 15

Understanding Data Via Descriptive Analysis Measures of Variability: Frequency distribution reveals the number (percent) of occurrences of each number or set of numbers Range identifies the maximum and minimum values in a set of numbers Standard deviation indicates the degree of variation in a way that can be translated into a bell-shaped curve distribution Ch 15

Understanding Data Via Descriptive Analysis Measures of Variability: Ch 15

When to Use a Particular Statistic Ch 15

Hvornår bruges hvad? Eksempler fra casen Spørgsmål Måleniveau Central tendens Variabilitet Opfattelsen af forskellige studiebyer Køn Nominalskaleret Modalværdien Frekvensfordeling Har du i valg af fag og niveau haft en bestemt videreuddannelse i tankerne? Hvor vigtige er følgende forhold for dit studievalg? Ordinalskaleret Medianen Kumuleret fordeling Hvordan vurderer du alt-i-alt København, Odense, Aalborg og Århus samt "Din by" som studiebyer? Intervalskaleret (antager vi) Middeltal Varians/spredning Variationsbredden (range) Hvor sandsynligt er det, at du påbegynder matematik-økonomistudiet efter sommerferien 2009? Alder Ratioskaleret Ch 15

Datamatricen i Studievalgsundersøgelsen Ch 15

Hvornår bruges hvad? Eksempler fra casen Spørgsmål Måleniveau Central tendens Variabilitet Opfattelsen af forskellige studiebyer Køn Nominalskaleret Modalværdien Frekvensfordeling Ch 15

Hvornår bruges hvad? Eksempler fra casen Spørgsmål Måleniveau Central tendens Variabilitet Opfattelsen af forskellige studiebyer Køn Nominalskaleret Modalværdien Frekvensfordeling Ch 15

Hvornår bruges hvad? Eksempler fra casen Spørgsmål Måleniveau Central tendens Variabilitet Har du i valg af fag og niveau haft en bestemt videreuddannelse i tankerne? Hvor vigtige er følgende forhold for dit studievalg? Ordinalskaleret Medianen Kumuleret fordeling Ch 15

Hvornår bruges hvad? Eksempler fra casen Spørgsmål Måleniveau Central tendens Variabilitet Hvor vigtige er følgende forhold for dit studievalg? Hvordan vurderer du alt-i-alt København, Odense, Aalborg og Århus samt "Din by" som studiebyer? Intervalskaleret (antager vi) Middeltal Varians/spredning Variationsbredden (range) Ch 15

Hvornår bruges hvad? Eksempler fra casen Spørgsmål Måleniveau Central tendens Variabilitet Hvor sandsynligt er det, at du påbegynder matematik-økonomistudiet efter sommerferien 2009? Alder Ratioskaleret Middeltal Varians/spredning Variationsbredden (range) Ch 15

Generalizing a Sample’s Findings to Its Population and Testing Hypotheses About Percents and Means

Statistics Versus Parameters Statistics: values that are computed from information provided by a sample Parameters: values that are computed from a complete census which are considered to be precise and valid measures of the population Parameters represent “what we wish to know” about a population. Statistics are used to estimate population parameters. Ch 16

Ch 16

The Concepts of Inference and Statistical Inference Inference: drawing a conclusion based on some evidence Statistical inference: a set of procedures in which the sample size and sample statistics are used to make estimates of population parameters Ch 16

Ch 16

Parameter Estimation Parameter estimation: the process of using sample information to compute an interval that describes the range of values of a parameter such as the population mean or population percentage is likely to take on Ch 16

Parameter Estimation Parameter estimation involves three values: Sample statistic (mean or percentage generated from sample data) Standard error (variance divided by sample size; formula for standard error of the mean and another formula for standard error of the percentage) Confidence interval (gives us a range within which a sample statistic will fall if we were to repeat the study many times over Ch 16

Parameter Estimation Standard error: while there are two formulas, one for a percentage and the other for a mean, both formulas have a measure of variability divided by sample size. Given the sample size, the more variability, the greater the standard error. Ch 16

Standard Error of the Mean Ch 16

Standard Error of the Percentage Ch 16

Parameter Estimation Confidence intervals: the degree of accuracy desired by the researcher and stipulated as a level of confidence in the form of a percentage Most commonly used level of confidence: 95%; corresponding to 1.96 standard errors Ch 16

Parameter Estimation What does this mean? It means that we can say that if we did our study over 100 times, we can determine a range within which the sample statistic will fall 95 times out of 100 (95% level of confidence). This gives us confidence that the real population value falls within this range. Ch 16

Hypothesis Testing Hypothesis: an expectation of what the population parameter value is Hypothesis testing: a statistical procedure used to “accept” or “reject” the hypothesis based on sample information Intuitive hypothesis testing: when someone uses something he or she has observed to see if it agrees with or refutes his or her belief about that topic Ch 16

Hypothesis Testing Statistical hypothesis testing: Begin with a statement about what you believe exists in the population Draw a random sample and determine the sample statistic Compare the statistic to the hypothesized parameter Ch 16

Hypothesis Testing Statistical hypothesis testing: Decide whether the sample supports the original hypothesis If the sample does not support the hypothesis, revise the hypothesis to be consistent with the sample’s statistic Ch 16

What is a Statistical Hypothesis? A hypothesis is what someone expects (or hypothesizes) the population percent or the average to be. If your hypothesis is correct, it will fall in the confidence interval (known as supported). If your hypothesis is incorrect, it will fall outside the confidence interval (known as not supported) Ch 16

How to Test Statistical Hypothesis 2.5% 2.5% 95% +1.96 -1.96 Ch 16

Types of Statistical Analyses Used in Marketing Research Test af sammenhænge mellem undersøgelsesspørgsmål og kriterier undersøgelsesspørgsmål indbyrdes

Sammenligning af to populationer i Studievalgsundersøgelsen Sammenligninger ved hjælp af tabelanalyse Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem drenges og pigers planer for fremtiden efter sommerferien s_5_1 s_16 Krydstabel Pct.-vis fordeling af drenge og pigers svar på sp.

Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem drenges og pigers planer for fremtiden efter sommerferien s_5_1 s_16 Krydstabel Pct.-vis fordeling af drenge og pigers svar på sp. Ch 16

Sammenligning af to populationer i Studievalgsundersøgelsen Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem drenges og pigers planer om at læse videre på universitet el. ln. s_5_1, svar 1 s_16 Gennemsnit af dummyvariabel Konfidensinterval for hyppigheden, som kan afgøre signifikans

Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem drenges og pigers planer om at læse videre på universitet el. ln. s_5_1, svar 1 s_16 Sammenligning af gennemsnit af dummyvariabel Konfidensinterval for hyppigheden, som kan afgøre signifikans

Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem drenges og pigers planer om at læse videre på universitet el. ln. s_5_1, svar 1 s_16 Sammenligning af gennemsnit af dummyvariabel Konfidensinterval for hyppigheden, som kan afgøre signifikans

Sammenligning af to populationer i Studievalgsundersøgelsen Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem drenges og pigers gennemsnitlige vurdering af København og Aalborg som studiebyer s_22_1 s_22_4 s_16 Gennemsnit af intervalskaleret variabel Independent samples T-test Konfidensinterval for gennemsnit, som kan afgøre signifikans

Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem drenges og pigers gennemsnitlige vurdering af København og Aalborg som studiebyer s_22_1 s_22_4 s_16 Gennemsnit af intervalskaleret variabel Independent samples T-test Konfidensinterval for gennemsnit, som kan afgøre signifikans

Sammenligning af gennemsnittet for to spørgsmål i Studievalgsundersøgelsen Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem den gennemsnitlige vurdering af København og Aalborg som studiebyer s_22_1 s_22_4 Gennemsnit af intervalskaleret variabel Dependent samples T-test Konfidensinterval for gennemsnit, som kan afgøre signifikans

Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem den gennemsnitlige vurdering af København og Aalborg som studiebyer s_22_1 s_22_4 Gennemsnit af intervalskaleret variabel Dependent samples T-test Konfidensinterval for gennemsnit, som kan afgøre signifikans

Sammenligning af gennemsnittet for flere end to populationer i Studievalgsundersøgelsen Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem forskellige skolers elever i deres planer for at læse videre på universitet el. ln. s_1 (evt. grupperet) s_5_1 Gennemsnit af dummykodet variabel Variansanalyse (ANOVA) Estimerede andele Test for signifikans af forskelle Ch 16

Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem forskellige skolers elever i deres planer for at læse videre på universitet el. ln. s_1 (evt. grupperet) s_5_1 Gennemsnit af dummykodet variabel Variansanalyse (ANOVA) Estimerede andele Test for signifikans af forskelle

Undersøgelses-spørgsmål Relevante variabler Analyseteknik Forventet output Er der forskel mellem forskellige skolers elever i deres planer for at læse videre på universitet el. ln. s_1 (evt. grupperet) s_5_1 Gennemsnit af dummykodet variabel Variansanalyse (ANOVA) Estimerede andele Test for signifikans af forskelle Ch 16