Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum Eckhard Bick, 2000.

Slides:



Advertisements
Lignende præsentationer
Kommakursus ”light” Middelfart Gymnasium 2009.
Advertisements

Introforløb i grammatik
Introduktion til HTML HTML dokumentets struktur & Indhold.
Status på opfølgning på trivselsundersøgelse
ORDKLASSER I FARVER 2010.
Hvordan får vi bedre læsere?
© Jakob Fischer Jørgensen / VUC
Transportplanlægning og Ruteoptimering
Oplæg for Utdanningsforbundet ved Charlotte Rømer Engel
Fra formel til funktionel undervisning
DIT-systemet et par introducerende eksempler
Semiotik, Lingvistik og sprogbrug
Ressourceoptimering og vurdering af kemi i produkter – To værktøjer Maria Strandesen FORCE Technology ReThink Business/Region Midtjylland 29. nov 2012.
Energimærkning af bygninger i Danmark
MapReduce implementationer MapReduce Hadoop Apache open source projekt.
Ph.d.-projekt, Sanni Nimb
Dansk med it © Duncker & Ruus DIT-systemet Dansk med it Generel præsentation for studerende Dorthe Duncker og Hanne Ruus Institut for Nordiske Studier.
NP struktur - Eller hvordan engelsk er nominelt, mens dansk er verbalt.
Teori, begreber, faglige metoder og undersøgelsesmetode
SÆTNINGSANALYSE.
Folkeskolens afgangsprøve
Udlands-semester i Moscow, Idaho Marc Andresen.
Bilag 9, Masterprojekt MIL 2010 Absalon som medie i undervisningen på TPU – Hvordan? Udarbejdet af Jørn Piplies Døi. Studienummer Det teoretiske.
Pythagoras beviser.
Øvelse Udvælg et websted som du/I mener har en dårlig informationsarkitektur (gruppe eller individuelt)
Bjarne Christensen Ribe Seminarium
School model and counseling methods
Mobility management og sundhed Mobility og Sundhed.
Læseforståelses-pædagogik i et dsa-perspektiv
Et kursus om it som faglig udfordring og didaktisk mulighed for danskfaget. Ph.d. Jeppe Bundsgaard
Hvad kræver det? Parat til erhvervsuddannelse. Parat til… Erhvervsuddannelser? En konkret erhvervsuddannelse? Grundforløb? En bestemt indgang? En konkret.
Vision og realitet V. Tom Nyvang E-Learning Lab Nordjylland.
Simpel rente, sammensat rente, annuitet
Kommakursus ”light”.
Overskrift Max 1 linje Forside dias Der findes 4 farveskemaer at vælge mellen: Marker det / de slides du vil have en anden farve på, Vælg ”Design” / ”Farver”
AT eksamen 2014 Hvordan kan opgaven løses med de humanistiske fag? HS
VISL – begrænsninger og styrker
Virtuelle verdener og rum III. 20. februar Konstruktion af 3D-verdener Primærlitteratur: Peter Anders: ”Cybrids” med reference til hans bog, ”Envisioning.
Dansk udtale Danska hér og nú – 12. mars 2010 Félag dönskukennara
Sugestões de Dicionários: Portugisisk-dansk, dansk- portugisisk lommeordbog Axel Heide Gregersen, 2005, 3. udgave, Gyldendal (Kr.170,-/Kr.234,-)
TESTERROLLEN OG SPØRGSMÅLSTYPER. Testerrollen  Testeren bør Tilpasse taletempo, ordvalg og struktur til niveauet for det givne modul Tilpasse spørgsmål.
1 Webdesign - De første trin Grundliggende begreber Internettet (1969-): En fællesbetegnelse for netværk eller tjenester der benytter samme.
Fra vejledning til biologi c
FOVITS: Informationshåndtering på nettet - sprogteknologiske løsninger 9933 RDF I XML og RDFS Costanza Navarretta Center for Sprogteknologi, Københavns.
10. sep Nordjyllands Amt Digital Signatur Kristian Alstrup Baden  Den Digitale Amtsgård ”Den Digital Amtsgård” Digital Signatur.
AT 3.2 Igangsættelse af tankeprocesser – at udvælge endelig sag og formulere problemformulering.
Sætningsanalyse Velkommen- hvad vil jeg gennemgå
Projekt Forskerspirer Projekt Forskerspirer Projekt Forskerspirer giver deltagerne mulighed for at fordybe sig i et emne og udarbejde forslag.
Historien om de gode venner.
FORSIDEVARIANT 2 1 LEDER MIN LEDER MIT ARBEJDSMILJØ – OG HVEM LEDER HANS/HENDES? VED GRETE CHRISTENSEN, FORMAND, DANSK SYGEPLEJERÅD PÅ FAGDAG I KREDS MIDT.
WordNet Elektronisk leksikalsk database Semantisk ordbog Ca
Antag, at en student skal til eksamen i to fag, A og B. at eksamen bestås ved summen af karakterne A og B, altså k A + k B  k 0, hvor k 0 er beståelseskravet.
Ill Et produkt med mange dimensioner
Daisy Overblik. Formål og principper Alternative udgaver bør være tro gengivelser af det trykte forlæg for at sikre at syns- og læsehandicappedes har.
- en del af fremtidens skole Skoler fra Århusområdet og Fyn deltager i et forskningsprojekt Kreativ tænkning.
CorpusEye Et brugervenligt web-interface til grammatisk opmærkede korpora Eckhard Bick
Spidssnudet frø skrevet af Johannes
Algoritmer og Datastrukturer 2 Graf repræsentationer, BFS og DFS [CLRS, kapitel ] Gerth Stølting Brodal.
Syntaksbeskrivelse Syntaksdiagrammer og EBNF-notation.
DeepDict Et korpusbaseret relationelt leksikon Eckhard Bick Syddansk Universitet & GrammarSoft ApS.
Sproglig opmærksomhed & sproglig bevidsthed. Forudsætninger for at lære sprog Input - en forudsætning for at kunne finde mønstre og for at have noget.
SYNTKATISK SIGNIFIKATION HVORDAN FINDER VI SUBJEKTET (OG OBJEKTET)? TYSK FAGDAG 6. FEBRUAR 2015 LASSE BRUNØ.
Ny Rådhusløsning i Furesø Kommune Gennemgang af tre placeringer
Automatisk oversættelse af
1.09 Dokumentation.
Øvelser til DREAM fasen
DIGHUMLAB Forskning i tema1 – Sproglige materialer
Workshop 1.
Positive sider som far 1:____________________________ 2:____________________________ 3:____________________________ 4:____________________________ 5:____________________________.
Præsentationens transcript:

Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum Eckhard Bick, 2000

Korpus90 og Korpus2000 blandet tekst, ca. 28 mill. ord hver sætningsrandomiseret citatkorpus kompileret af DSL (www.dsl.dk) morfosyntaktisk opmærket af VISL (visl.sdu.dk)

Korpus90/2000 på www.dsl.dk

Korpus90/2000 på corp.hum.sdu.dk

Korpus90/2000 som træbank på corp.hum.sdu.dk/arboretum.html

Søgningsresultater som syntaktisketræstrukturer

Korpusopmærkning: DanPars Præprocessering: Separation, polyleksika Morfologisk analysemaskine og leksikon Postprocessering: Valens- og semantisk potentiale Morfologisk disambiguering (CG) Syntaktisk mapping og disambiguering (CG) Propriums-CG, Case role-CG PSG-overbygning: Arboretum

De mest almindelige syntaktiske funktioner

Syntaktiske funktioner i Korpus2000: sætningsniveau

Syntaktiske funktioner i Korpus2000: gruppeniveau

Syntaktiske funktioner i Korpus2000: specielle funktioner

Leksikokgrafisk arbejde fx leksemer der indgår i bestemte syntaktiske sekvenser: @SUBJ> (subjekt) @MV (main verb) @<ACC (objekt) ”hest” ”æde” ”hø” opmærkning med semantiske prototyper: 21 aflyse <occ> (arrangementer) 19 aflyse <act-c> (tallelige handlinger og aktiviteter) 4 aflyse <ac> (tallelige abstrakta) 4 aflyse <act> (handlinger og aktiviteter) 4 aflyse <sem-l> (musikalske værker m.m.) 3 aflyse <event> (hændelser) 3 aflyse <sit> (situationer)

Selektionsrestriktioner for objekter forflytte <Hprof>_2 (human professional) forfægte <pp>_3 (tankeprodukt) forfølge <ac>_8 <Hprof>_6 <H>_4 .... (aktiviteter og mennesker) forføre <H>_3 (people) forgylde <H>_4 <Hprof>_3 (mennesker) forhale <act-c>_3 <act>_3 (handlinger og aktiviteter) forhandle <ac>_17 <sem-r>_9 <conv>_8 .... (tællelige abstrakta, "readables", aftaler) forhaste <pp>_3 <sem>_3 (tankeprodukter) forhindre <act>_35 <Hprof>_23 <ac>_18 <act>_18 <H>_17 <HH>_14 <event-c>_9 forhøje <ac>_13 <mon>_7 <mon-c>_5 ... (abstrakta og pengebeløb) forkaste <pp>_5 <Hprof>_4 <ac>_3 <conv>_3 .. (tankeprodukter, profess., aftaler) forklare <ac>_39 <act-c>_7 <act>_6 ... (abstrakta og handlinger) forkorte <per>_4 (perioder)

Selektionsrestriktioner for subjekter advare <Hprof>_44 <HH>_10 <ac>_6 <inst>_6 ... (professionelle, grupper, institutioner) afblæse <HH>_3 <Hprof>_2 ... (grupper og professionelle) afbryde <Hprof>_28 <HH>_10 <H>_8 <ac>_6 <Hfam>_4 ... (professionelle og almindelige mennesker) afdække <act-c>_7 <sem>_6 <Hprof>_5 <ac>_4 (handlinger, intellektuele frembringlelser, professionelle) affyre <H>_8 <Vair>_7 <inst>_7 <HH>_5 ... (mennesker, fly og grupper) affærdige <Hprof>_3 afføde <ac>_12 <act-c>_10 <act>_8 ... (abstrakta, handlinger og aktiviteter) afgive <Hprof>_34 <HH>_24 <inst>_17 ... (professionelle, grupper og institutioner) afgøre <ac>_25 <HH>_14 <act-c>_11 <H>_6 ... (abstracta, grupper, handlinger)

Berømte navne omkring Y2K ?

Teksttypologi: Passivkonstruktioner Passivfrekvens som stilmærke for kancellistil, abstraktionsniveau m.m.? 3,1% alle passiver, 2,3% finitte former inkl. aktiv participium, 5,9 infinitiver s-passiv eller blive-passiv leksemspecifikke passivnormaler?

(a) Børnene flokkedes omkring ismaskinen. Børnene blev flokket (a) Børnene flokkedes omkring ismaskinen. *Børnene blev flokket. Leksikaliseret S-passiv ("slås", "synes") (b) Løgene svitses. Løgene bliver svitset. Høj Spas/akt, høj Spas/Bpas (c) Aktieudbytte beskattes med 25%. Aktieudbytte bliver beskattet med 25%. Høj Spas/akt, neutral Spas/Bpas (d) Minimælk fås kun fra Arla. *Minimælk bliver fået. Lav Spas/akt, høj Spas/Bpas (e) Der arbejdes på en løsning. Der bliver arbejdet. *Den bliver arbejdet. Blive-passiv kun med formelt subjekt. (f1) Bøgerne er solgt d. 10. oktober (=er blevet). *Bøgerne er solgte d. 10. oktober. (f2) Tallene er vist (=vises) med rød skrift. *Tallene er viste med rød skrift. Være-passiv enten som s- eller som blive-passiv

Teksttypologi: Passivkonstruktioner

Foranstillede adverbier i præpositionsstyrede infinitiver Rød = fokusadverbier blå = tidsadverbier grøn = bøjede adverbier

Vp-indskudte adverbier og deres positionspecificitet Rød = attitude-adverbier blå = konjunktionelle adverbier

7,1 % i 1,1 millioner ord fra Korpus2000 Direkte objekter 7,1 % i 1,1 millioner ord fra Korpus2000

Foranstillede nominale objekter

Pronominal-ellipse i relativsætninger

Genus-fluktuation i dansk Hypotese: Noget/meget + utrum substantiv: -> Projektion af +mass meget/megen er mindre markeret (50/50) noget/nogen er mere markeret (1 : 6 fordeling) (a1) Øllet var stærkt og mørkt. (a2) De drak en øl hver. (b) Det var noget godt mad, du lavede. (c) Vejen får ekstra meget trafik om morgenen.

Hypotese: konkret-abstrakt-gradient for meget og positiv noget (a1) Jeg har ikke noget glas. (--> … at drikke af) (a2) Jeg har ikke noget krus. (--> … at drikke af) (b1) ?Jeg har noget glas. (--> materialet) (b2) *Jeg har noget krus. (--> Jeg har et krus) (c1) Jeg har lavet noget (nogen?) aftensmad. --> konkret (c2) Han har vist nogen (noget?) interesse for forslaget. --> abstr. (c3) *Han har nogen bil.

Korpus90/2000: http://www. dsl. dk http://corp. hum. sdu Korpus90/2000: http://www.dsl.dk http://corp.hum.sdu.dk Arboretum: ~/arboretum.html ************** Morfosyntaktisk opmærkede CG-korpora tillader bl.a.: Leksikografiske undersøgelser mht. argumenttypologi, feltdistribution, bøjningsfluktuation m.m. Grammatisk teksttypologi Kvantitative undersøgelser af syntaktiske fænomener