F A C U L T Y O F H U M A N I T I E S U N I V E R S I T Y O F C O P E N H A G E N Nja… En korpusbaseret undersøgelse af interjektioner i talesprog ODT’s.

Slides:



Advertisements
Lignende præsentationer
Kombinatorik, sandsynlighed og statistik
Advertisements

KiMs – Maj KiMs SMAGSTEST - franske kartofler - Maj 2012.
Lyd fra musikinstrumenter
EJERSKIFTE Statistik om ejerskifter i Danmark baseret på resultater fra spørgeskemaundersøgelse Okt./nov for Erhvervs- og Byggestyrelsen og INSEAD.
Dimensioner i refleksionsskabelon og introduktion til scoringer
©Jenny Bohr – Til underviserne Voksne beskriver og italesætter ofte sig selv med de ord, som voksne brugte om dem, da de var børn. Mange.
Hvem er vi? Martin Dahl Karin Dam Nielsen
Vektorer i planen Regneregler Definition Begreber Definition af:
AT og faget Engelsk På de følgende dias får du nogle gode tips til, hvordan faget engelsk mest hensigtsmæssigt indgår i AT-eksamen.
A&B ANALYSEs Danmarkspanel - Foreningen ”Odinstårnet” -
Hypotese test – kapitel 6 (Signifikans test)
Repræsentativitet Opsamling fra sidst Repræsentativitet (χ2-test)
Borgernes barrierer for brug af IT
Vælgerne og danske EP-valg
v/ Professor Lars Ehlers, Aalborg Universitet
Sådan underviser vi i stavning
Faglig læsning 2.
konception Planlægning ud fra genuint formål
Grundbegreb + Priselasticitet
Kvantitative metoder. Indsamlingsflow 4-ugers projekt 03 Web-popup på på dagligvarekoncerns hjemmeside som led i større Usability test Spurgte om: –køn,
Sammenligning af to grupper – kapitel 7
Beboere med anden sproglig eller kulturel baggrund end dansk
Side 1. Deltagerne i undersøgelsen Undersøgelsen af elevtilfredsheden i efteråret 2003 har principielt omfattet alle EUD-elever på såvel grundforløb som.
Afløsningsopgave 2.
Naboskabet - en undersøgelse af 3 boligområder 473 beboere besvarede undersøgelsen 6-11 år: år: år: 4 Voksne: 454.
Illustration fra Livsstil, Sundhed og Kræft
Hanne-Pernille Stax, ph.d
Statistik og kvantitativ metode Politik & Administration og Samfundsfag 3. semester 2007 Lektion 5, tirsdag den 23. oktober Punkt- og intervalestimering.
Case.
Validering af data (Access, del 7)
Statistik Lektion 5 Log-lineære modeller.
Fokus på Job? SFI Fokus på Job? – En analyse af kontaktforløbssamtaler i AF, kommuner og hos andre aktører Gåhjemmøde Socialforskningsinstituttet.
Beskrivelses- og analyse-teknikker understøttet af Oracle Designer Del 2 af 2: Proces- og funktionsdiagrammering Aalborg Universitet, d. 9. oktober 2006.
Problemer eller udfordringer.
Opdagende skriftsprog i et inklusionsperspektiv
Økonometri 1: Dummy variable
Signifikanstest ved (en eller) to stikprøver
Niveauer for læring i organisationen
Videnskabsteori - for begyndere 3g AT 2014
Statistik II 5. Lektion Log-lineære modeller.
Side 1 © 2008 Zapera.com A/S – Ryesgade 3A, 1.tv. – 2200 København N - Tel – Fax – Enhver offentliggørelse af disse.
DIGNITY – Danmarkspanel - December A&B ANALYSEs Danmarkspanel - TORTUR - December 2014.
Mhtconsult Mangfoldighedsværktøj for Erhvervsskolerne Skemafasen.
Hvordan skabes samfundsfaglig viden?
Kombinatorik, sandsynlighed og statistik
DIEB4.1 Kursusgang 4 Oversigt: Sidste kursusgang Opgaver Aktivitet 2: Generer design (fortsat) Design af interaktionselementer.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 26. februar 2007.
Download Guiden Inspektionsguiden er udviklet med henblik på at hjælpe danske virksomheder, der står.
Kæledyr koster Ann Lehmann Erichsen, forbrugerøkonom.
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 15. februar 2006.
Kvantitative metoder 2: Den multiple regressionsmodel1 Kvantitative metoder 2 Den multiple regressionsmodel 28. februar 2007.
Hvordan skriver man sin afsluttende opgave?
Økonometri 1: Den multiple regressionsmodel1 Økonometri 1 Den multiple regressionsmodel 17. september 2004.
SKABELON.
F A C U L T Y O F H U M A N I T I E S U N I V E R S I T Y O F C O P E N H A G E N Facebook – et nyt brugersegment for Ordbog over Dansk Talesprog (ODT)
METODE I SRP Oplæg 20/ PowerPointen findes her: Startside:
AKTIV HELE LIVET HJEMMEPLEJEN UNDERSØGELSE AF BRUGERTILFREDSHEDEN MED HJEMMEPLEJEN APRIL 2015.
SKRIVEFAGET Modul 2: Tekstsammenhæng Lektion 6: Tekstniveauer.
Ellen Holm, Forskningscafé
Den multiple regressionsmodel 21. september 2005
Tilfredshedsundersøgelse
Velkommen til Metode i DIO.
Grupperede observationssæt
DIGHUMLAB Forskning i tema1 – Sproglige materialer
BASELINEUNDERSØGELSEN 2015 – forældre til folkeskoleelever
Teoretiske kontinuerte fordelinger
Måling (psykometri) 1.
Er skånsk så svært endda?
»Jeg tror jeg kan altid huske det danske sprog«
Præsentationens transcript:

F A C U L T Y O F H U M A N I T I E S U N I V E R S I T Y O F C O P E N H A G E N Nja… En korpusbaseret undersøgelse af interjektioner i talesprog ODT’s fremgangsmåde Ordbog over Dansk Talesprogs arbejde bygger på LANCHART-korpusset, som består af 6,5 millioner transskriberede tokens af samtaletimer. Korpusset består primært af sociolingvistiske interviews fra 1978 til i dag. Da Ordbog over Dansk Talesprogs primære fokus er hvordan talesprog afviger fra skriftsprog, er det oplagt at beskæftige sig med interjektioner, som er primært interaktionelt forankret. Derfor har ODT i første omgang valgt at fokusere på interjektioner. Figur 1 Illustration af processen fra korpus til ordbog 1) Søgning i korpus ODT sigter mod at blive en lydbaseret ordbog. Dette skaber problemer når LANCHART- korpusset er udskrevet i ortografi. Man må altså tage udgangspunkt i et ortografisk lemma, for eksempel nja, når der søges i korpusset. 2) Stikprøve Højfrekvente ord kan optræde i korpusset flere tusinde gange. Derfor er det ofte nødvendigt at lave en stikprøve. Stikprøven udarbejdes sådan at den er geografisk repræsentativ i forhold til hele søgningen. I fremtiden ønsker ODT en automatiseret måde at sikre repræsentativiteten på som tager højde for de øvrige sociolingvistiske variable som køn, alder, socialklasse og optagelsestidspunkt. 3) Trækopmærkning og frasortering I arbejdet med interjektioner har ODT udarbejdet et trækinventar til beskrivelse af lemmaer. På denne måde kan forskellige lemmaer eller betydningsvarianter let sammenlignes. I figur 2 ses alle trækkene med deres trækværdier. ODT’s trækinventar er under løbende udvikling. I denne præsentation er det vigtigste træk attitude- trækket som indeholder værdierne positiv, negativ og absolut negation. Positiv attitude defineres som at taleren forholder sig positivt til indholdet i egen eller andens ytring eller at taleren udtrykker emfase eller entusiasme. Negativ attitude defineres som at taleren forholder sig negativt til indholdet i egen eller andens ytring og udtrykker forbehold eller ærgrelse. Absolut negation defineres som at taleren fuldt ud afviser indholdet af den forudgående ytring. Figur 2 Oversigt over ODT’s trækinventar Trækinventaret forsøger at beskrive alle aspekter af en samtale. Trækkenes placering i samtalen er illustreret i figur 3. Attitude-trækket siges at befinde sig hos taleren da det er i talerens ytring det kommer til udtryk hvorvidt taleren forholder sig positivt eller negativt til den forudgående ytring. Figur 3 Illustration af trækkenes placering i samtalen Ud over trækinventaret opmærkes der også naboord, varighed, intonation og udtale. Desuden gøres der også brug af de sociolingvistiske variable som på forhånd er noteret i korpusset. 4) Manuel opdeling i betydningsvarianter Ud fra trækopmærkningen opdeles målordet om nødvendigt i forskellige betydninger. 5) Statistik Det er muligt at lave statistiske beregninger over de sociolingvistiske variable. Beregningerne tager højde for korpussets opbygning og udligner eventuelle uligheder for at sikre undersøgelsens validitet. I fremtiden sigter ODT mod at blive helt lydbaseret, men indtil videre er det ikke muligt at søge på lyd i korpusset. Nja Søgning i korpus og stikprøve Søgning på nja i korpusset giver 965 resultater. Det er derfor nødvendigt at lave en stikprøve. I første omgang er stikprøven på 10 %, altså 97 excerpter med nja. Ved systematisk gennemlytning viser det sig dog at mange af eksemplerne på nja er fejltransskriberede i forhold til den faktiske udtale, og at det derfor er nødvendigt at udvide stikprøven for at få nok data. Stikprøven udvides til 20 %, altså 193 excerpter hvoraf kun 69 udtales [nja] og altså kan indgå i undersøgelsen. Trækopmærkning og opdeling i betydninger Det viser sig at nja har to betydninger som primært adskiller sig fra hinanden i attitudetrækket. Nja 1: Udtrykker positiv attitude i form af bekræftelse af andens ytring eller genbekræftelse af egen ytring. (53 excerpter) For eksempel: Redaktør Jessie Leigh Nielsen Nja 2: Udtrykker negativ attitude som tvivl og forbehold. (16 excerpter) For eksempel: Nja 1 og nja 2 opfører sig også forskelligt distributionelt. Nja 1 optræder både som respons på en andens ytring og på egen ytring, mens nja 2 kun optræder som respons på en andens ytring. Det viser sig også at nja 1 er betydeligt kortere end nja 2. Nja 1 varer gennemsnitligt 0,27 sekunder, og nja 2 varer gennemsnitligt 0,6 sekunder. Det stemmer overens med sproglig intuition at det tøvende nja skulle være langt. Det stemmer også overens med den transskriberede udtale i for eksempel Den Danske Ordbog hvor nja 2 gengives [nja:a]. Statistik Nja 1 er meget mere frekvent end nja 2. Nja 1 forekommer gennemsnitligt 11,1 gange pr tokens, og hvor det er mest frekvent, ved talere født efter 1987, forekommer det 39,2 gange pr tokens. Til sammenligning forekommer nja 2 gennemsnitligt kun 1,6 gange pr tokens. Der er også en klar tendens til at nja 1 oftest bruges af unge som det kan ses i figur 4. Figur 4 Diagram over frekvensen af nja 1 fordelt på taleres fødeår Figur 5 Tabel over de forskellige betydninger af nja henholdsvis i ODT og DDO ODT og traditionelle ordbøger Figur 5 viser forskellen på ODT’s og DDO’s behandling af nja. DDO (Den Danske Ordbog) er primært baseret på skriftsprogsdata. ODT har altså ved hjælp af et talesprogskorpus både fundet det lemma som findes i DDO, og afdækket et nyt lemma som ikke fremgår i traditionelle ordbøger. Her er det altså lykkedes ODT ved hjælp af et talesprogskorpus og en lydfokuseret tilgang at finde frem til et nyt lemma som hidtil ikke har været kendt. Interessant er det at det tidligere ukendte lemma nja 1 endda er meget mere frekvent end det eksisterende lemma nja 2, som det ses i figur 6. Figur 6 Diagram over frekvensen af nja 1 og nja 2 Eget lemma eller udtalevariant Det kan diskuteres om nja 1 skal være et selvstændigt lemma eller en udtalevariant af ja eller muligvis af andre lemmaer. Umiddelbart synes nja 1 nemlig at betyde nogenlunde det samme som ja, altså en generel accept af det som er blevet sagt. Om nja 1 og ja er samme lemma kan ikke afgøres før vi også har analyseret ja. Først efter begge udtaler er analyseret, kan det overvejes hvorvidt de hører til ét eller to lemmaer. Det er ODT’s ambition at være lydbaseret. På den måde registrerer ODT en anden dimension af ordforrådet end de traditionelle skriftbaserede ordbøger. Som det er blevet vist med nja, er det muligt for ODT at afdække nye lemmaer som ikke opdages, hvis man kun tager højde for ortografi. Spørgsmål eller kommentarer: Jessie Leigh Nielsen Ordbog over Dansk Talesprog Københavns Universitet LemmaOrdbog over Dansk TalesprogDen Danske Ordbog Nja 1 Udtrykker positiv attitude i form af bekræftelse af andens eller genbekræftelse af egen forudgående ytring. - Nja 2Udtrykker negativ attitude som tvivl og forbehold. Bruges for at udtrykke tøven, tvivl eller forbehold, fx når man ikke mener at kunne svare entydigt ja eller nej på et spørgsmål. Attitude Informations- kvittering Interaktion Objekt for respons Emnevalg Positiv Samtalerespons Fysisk begivenhed Emneskift Negativ Potentielt turskift Fortalt fysisk begivenhed Absolut negation CitatFortalt ikke- fysisk begivenhed