Præsentation er lastning. Vent venligst

Præsentation er lastning. Vent venligst

Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined.

Lignende præsentationer


Præsentationer af emnet: "Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined."— Præsentationens transcript:

1 Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined

2 Hvad handler tekster om? “En fjerdedel af landets 400.000 husejere med eget naturgasfyr skal inden 2020 flyttes over på den grønnere fjernvarme. Det ønsker klima- og energiminister Martin Lidegaard, der på den måde vil spare 40 procent af CO2-udledningen, skriver Jyllands-Posten. Kunderne skal betale for omstillingen, men også de tilbageværende gaskunder, skal betale en del af regningen, og det vækker vrede i Parcelhusejernes Landsforening (PL).” (DR NYHEDER 28. Oktober 2012) 1

3 Dagsorden •Om brugen af tagging i online nyheder –Hvorfor gør man det? –Hvad er det man gør? –Hvilken rolle spiller (sprog)teknologien? –Udfordringer og perspektiver •Samarbejde om basisteknologi –Fælles fundament? –Samarbejde mellem konkurrenter? 2

4 Hvorfor er tagging relevant? 1.Fordi man gerne vil kunne linke brugerne til relateret indhold 2.Fordi man gerne vil muliggøre overvågning baseret på et emne/tema 3.Fordi man gerne vil tilbyde et mere brugbart søgeresultat, som giver bedre overblik 3

5 Eksempler på tagging 1.Relateret indhold: Berlingske Business, Børsen, DR, m.fl. 2.Tema/overvågning: Kristelig Dagblad, Information, Infomedia, Berlingske, m.fl. 3.Metadata og facetteret søgning: Information, Infomedia 4

6 (Sprog)teknologi Først og fremmest fastlægning af betydning på ordniveau og rangering af nøgleord via simple brute force metoder (sprogteknologisk baseline): •Søgning (dansk eller ej): Alle •Genkendelse af navne: Berlingske, Børsen, DR, Infomedia, Information •Nøgleordsudtræk: Berlingske, DR, Infomedia, Information •Emnekategorisering: Infomedia, (DR) •Relateret indhold: Berlingske, Børsen, DR 5

7 Typiske problemer •Flertydighed generelt (f.eks. stemme, valg, sand, osv.) •Metaforisk anvendelse (flertydighed) •Ukomplette forespørgsler (manglende tekstforståelse) •Manglende værktøjer (som er dyre at udvikle) •Stort spring fra baseline (enkeltord, søgning) til ”ægte” tekstforståelse 6

8 Perspektiver Når nu de fleste har implementeret baseline, hvad bliver det næste? •Mere automatisering •Deling og udbygning af ordbøger, navne, etc. især med fokus på kontekst •Er der fortsat en business case i at videreudvikle baseline hos online nyhedsmedier? •Ægte tekstforståelse, f.eks.: –”Valg i USA” –”Fusioner mellem danske virksomheder” –”Dansk udenrigspolitik” •Kan nyhedsmediernes erfaringer og brug af sprogteknologi overføres til andre brancher? 7

9 Samarbejde eller konkurrence •Positivt at private virksomheder er begyndt selv at tage hul på det sprogteknologiske område •Men - der spildes en del resourcer i Danmark på, at organisationer vedligeholder samme type data hver især. Det giver ingen konkurrencefordele, for alle gør alligevel det samme! •Alle der gør brug af baseline burde samarbejde om at vedligeholde nogle grunddata, hvilket ikke er gratis, men dog billigere end at gøre al arbejdet selv 8


Download ppt "Hvad handler tekster om? Eksempler på brugen af automatisk klassifikation og tagging i online nyhedsmedier. Rune Stilling RDFined."

Lignende præsentationer


Annoncer fra Google