Værktøjer Tokeniser POS-tagger Navnegenkender Lemmatiser NP-genkender.

Slides:



Advertisements
Lignende præsentationer
5S tal-leg.
Advertisements

Hvordan man opretter en cache
Præsentation af materialer på personalemøde
Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined.
Cosinusrelationerne De sidste formler i skal kunne er cosinusrelationerne eller Den udvidede Pythagoras’ sætning som den også kaldes. I modsætning til.
ORDKLASSER og SÆTNINGSLED
Lektion 6 - Tid, fart og distance
DIT-systemet et par introducerende eksempler
MIN skabelon MIN generalisering! MIN specielle virkelighed!
Præsentationen starter automatisk. Som du synes. Slå højttalerne til.
Danmarks Miljøundersøgelser Billedoptimering i PowerPoint Af Britta Munter, SEK.
Faglig læsning 2.
Læring og videndeling om god arbejdsmiljøpraksis Oplæg på AM 2006 ved: Brian Knudsen, Arbejdsmiljøinstituttet Sune Netterstrøm og Peter Frimer, Bymusen.
Kriminalitet og analyse
Om et øjeblik kommer Du ind i en magisk verden!. Om et øjeblik...
Digitalisering i Praktiken Workshops den 9. februar 2007
Tradition og Fornyelse
Denne præsentation er specielt for begyndere. Se hele serien igennem før start. Hav værktøj og ler klart. GOD FORNØJELSE.
Ph.d.-projekt, Sanni Nimb
Side-egenskaber Web-udvikling med FrontPage 2003 RHS - Informationsteknologi.
Tips & tricks Lærings-stile og it – den helt rigtige kobling Ny PIXI
NP struktur - Eller hvordan engelsk er nominelt, mens dansk er verbalt.
X LukNæste  Velkommen Du skal nu lære at bruge PowerPoint ved at lave en præsentation. Du får mulighed for at vælge mellem at lave tre forskellige opgaver,
SDMT-SMV Workshop 1 Lene Offersgaard Center for Sprogteknologi, Københavns Universitet
Design effektive PowerPoint præsentationer Enkelt Konsekvent Tydeligt Stort Progressivt Afslut.
Her ser du de fire slags korn, der er vigtigst i Danmark.
Navigation Web-udvikling med FrontPage 2003 RHS - Informationsteknologi.
Adjektiv - Adverbium Facts and rules.
Bolette Sandford Pedersen Center for Sprogteknologi
Kære Gud. Tak for livet du har givet os, og denne gudstjeneste.
DIT LIV Tænd for lyden og læn dig tilbage -.
Klik for næste billede eller vent 30 sek. Rando på Bakken.
Eksempler på skabeloner til bøger i powerpoint
Indsæt eller fjern værktøjslinier
Dette program kan lave et portræt af dit ansigt ud fra den information, du selv giver... Klik her.
Dias 1 Center for Sprogteknologi, Københavns Universitet Workshop WP5 18. maj 2009 Resurser, værktøjer, typer og formater, oversigt over.
Lean Sales Manager LEAN INTRODUKTION Principperne Spild.
Algoritmer og Datastrukturer 1 Hashing [CLRS, kapitel ] Gerth Stølting Brodal.
P0 erfaringsopsamling Program 8.15: Introduktion
Litteratursøgning i forbindelse med bacheloropgave
Moses 3. del.
WordNet Elektronisk leksikalsk database Semantisk ordbog Ca
Billeder til gennemgang af dåben
OOMI Præsentation 28: Eksamen. Ingeniørhøjskolen i Århus Slide 2 af 6 Pensum Pensum har været noget fragmenteret (ny struktur for faget, nyt indhold og.
Arbejdsrelaterede skader
Objektorienteret Netværkskommunikation Præsentation 28: Eksamen.
Hvor kreativt kan du bruge din viden og tænke om alkohol?
Afdelingen for Økologi Landbrugets Rådgivningscenter Rådgivning om samarbejde Vores udgangspunkt var Gode varige samarbejder bygger på tillid Det fik vi.
TIBRGA Eksamen. Ingeniørhøjskolen i Århus Slide 2 af 5 Pensum Pensum uddrages fra lektionsplanen ALT der er angivet med betegnelsen ”Pensum” er pensum.
ITNET2 Præsentation 22: Eksamen. Ingeniørhøjskolen i Århus Slide 2 af 5 Pensum Pensum uddrages fra lektionsplanen ALT der er angivet med betegnelsen ”Pensum”
KB-cases: HUM og NAT Data management i praksis kick-off 27/ Anders Conrad.
Semantisk opmærkning Bolette Sandford Pedersen Center for Sprogteknologi.
Norddjurs Kommune 30. april 2015
SCA-øvelse: IND Instruktion: Fortæl om en eller flere konkrete opgaver hjemmefra, der er løst (fx plænen er slået/der er lukket for vandet i sommerhuset).
Synlig læring i praksis Workshop på konference Lise Mayland, Impact Uddannelse.
APPS TIL PLANTEAVLEREN – HVAD KAN DE, OG HVOR GODE ER DE? JENS PETER HANSEN SEGES P/S.
Lyst til at lære – Skabe lyst til at lære – Lyst til at lære fra os Præsentation og gennemslagskraft TUP ”Transfer i AMU” ZBC, tirsdag d. 16. august 2011.
Copenhagen, May 12, 2016 Dias 1 Digital Humaniora, e-science og juraen Birte Christensen-Dalsgaard Project Manager.
© Kommunikation skaber din organisation (2. udg.) Heidi Hansen, Hans Reitzels Forlag 2014.
Forside uden yderligere tekst. Du kan vælge andre forsider ved at højreklikke på slidet og vælge ”Formatér baggrund”. I boksen, der dukker op, vælger du.
Hvordan kom Moses over 1, S1 Hvordan kom Moses over Rødehavet? da han flygted’ fra Ægyptens land?
Algoritmer og Datastrukturer 1 Hashing [CLRS, kapitel ]
Kontakter, tilstedeværelse og chat
DIGHUMLAB Forskning i tema1 – Sproglige materialer
Eksamen D. 18/ Varighed: 30 min
Dette program kan lave et portræt af dit ansigt ud fra den information, du selv giver... Klik her.
Teoretiske kontinuerte fordelinger
- og hvordan du undgår dem…
- 30 minutters oplæg - 1 times arbejdssession
- 30 minutters oplæg - 30 minutters ordet er jeres
Præsentationens transcript:

Dorte Haltrup Hansen: Sprogteknologiske værktøjer til tekst- og informationshåndtering

Værktøjer Tokeniser POS-tagger Navnegenkender Lemmatiser NP-genkender

Tokenisering Problem: Hvordan afgrænser man et ord/leksem? hest fx 47 i forbindelse med som at kaste vand på en gås røntgen billede

Delimitors: H.C. Andersen-fejring Formatering: røntgen billede

POS-tagging Opgaver: For kendte ord: slå ordet op i ordlister og tilskrive ordklassen For tvetydige ord: disambiguere/entydiggøre homografer fx skade (sb.) og skade (vb.) For ukendte ord: beregne ordklassen fx kursusdeltageroplæg

Træningskorpus Træning under supervision Træning på rå tekst 250.000 til 1.000.000 ord Nøjagtigheden afhænger af typer af tags. Den danske version af Brill-taggeren har 49 forskellige tags. Trænede værktøjer er aldrig bedre end det materiale, der er brugt som træningkorpus.

Navnegenkendelse Personer Organisationer Steder Kriterier: ord med stort? Anonymisering

Lemmatisering Lemmatisering: finder grundformen af ordet udfordring: homografer fx for (præp.) og for (vb.) vs. Stemming: skærer frekvente endelser væk, men tager ikke højde for allomorfer fx gafl-er

Eksempler: festgudstjenestene/N_DEF_PLU 1 festgudstjenest sejrshymne/N_DEF_PLU 1 sejrshym i_det_hele_taget/ADV 10 i_det_hele_taget udlandskirke/ADJ 1 udlandskirk manges/ADJ_GEN 1 manges sabbatshvile/ADJ 1 sabbatshvil livsrytme/ADJ 1 livsrytm indsættelsestale/ADJ 1 indsættelsestal mærlelige/ADJ 1 mærlelig ikke.Dine/ADJ 1 ikke.din

NP-genkendelse Essentiel for grammatisk analyse fx Vi hørte [meteorologens præsentation af [vejret], vi kan vente os de næste dage]]]. Varianter fx [femdøgnsudsigt]

Projekter OntoQuery MOSES VID