CorpusEye Et brugervenligt web-interface til grammatisk opmærkede korpora Eckhard Bick
Baggrund Det tværsproglige VISL-projekt 22 undervisningssprog, 7 forskningssprog robust Constraint Grammar parsing "low-tech" brugere: Lærere, lingvister "high-tech"-brugere: Datalingvister, informatikere
Hvad skal et korpus bruges til? Undervisning: ord og vendinger i kontekst eksempler på grammatiske konstruktioner stilistisk analyse og sammenlingning almen sprogforståelse og - bevidstgørelse Forskning: leksikografi frekvensundersøgelser valensforskning sprogudviklingsundersøgelser sociolingvistik
Hvordan øger man værdien af et korpus? - 1. Opmærkning token vs. lemma morfologisk information: Genus, numerus... syntaktisk information: (a) funktion: Subjekt, objekt... (b) form: Syntagmer, ledsætninger... semantisk information: Semantiske prototyper, semantiske roller, anafora
Opmærkning: ordbaseret CG
Opmærkning: Træbankformat
Korpusmerværdi: 2. Revision
Korpusmerværdi: 3. Søgeinterface fri adgang: (a) web-baseret uden installation og registrering (b) helst frie data (uden password) graded complexity: Formel viden om etiketter og søgesproget er ikke nødvendigt og kan erhverves inkrementelt reg.ex.: joker-tegn og bool'ske operatorer menuer for kategorivalg ordnede data: konkordans, sortering, statistik
Hvilke korporaHvilke korpora?
Hvilke korpora 2
The interface
Enkle tekstsøgninger: fx. metaforer og komposita
Menubaseret kategorisøgning
Output: "rå" konkordans
Sortering og statistik
"invandrer"adjektivkontekst:
"udlænding" adjektivkontekst:
"flygtning" adjektivkontekst:
imperativerdyremetaforer
Træbanker
ID-knap = træ-link
Verbalkomplementering: * < (/P:/ < /spist?er?/ $.. /Od/)
Live korpora: The TextPainterThe TextPainter