Evaluering af punktfindere ved indholdsbaseret billedsøgning Speciale – Jacob Rohde.

Evaluering af punktfindere ved indholdsbaseret billedsøgning Speciale – Jacob Rohde

Plan Hvad er indholdsbaseret billedsøgning? Hvad er indholdsbaseret billedsøgning? De 4 punktfindere De 4 punktfindere Beskrivelse af lokale gradientretninger med SIFT deskriptoren Beskrivelse af lokale gradientretninger med SIFT deskriptoren Segmentering ved K-means Segmentering ved K-means Resultat/Konklusion Resultat/Konklusion

Indholdsbaseret billedsøgning (IBBS) IBBS: indeksere og finde billeder på baggrund af deres visuelle indhold. IBBS: indeksere og finde billeder på baggrund af deres visuelle indhold. Forskningsområde siden 1979. Forskningsområde siden 1979. Ordinær tekstbaseret søgning ikke altid nok: Ordinær tekstbaseret søgning ikke altid nok: Billedmængden eksploderet, især siden Internettets kommen. Billedmængden eksploderet, især siden Internettets kommen. Tekstuel annotation præget af menneskelig subjektivitet. Tekstuel annotation præget af menneskelig subjektivitet.

Indholdsbaseret billedsøgning Forespørgelsesbillede: Forespørgelsesbillede: Resultatbilleder: Resultatbilleder:

Indholdsbaseret billedsøgning IBBSer kan kategoriseres: målsøgning, kategorisøgning eller associativ søgning. IBBSer kan kategoriseres: målsøgning, kategorisøgning eller associativ søgning. Målsøgning: Søgning efter et specifik objekt/billede, f.eks. i kunstkatalog. Målsøgning: Søgning efter et specifik objekt/billede, f.eks. i kunstkatalog. Kategorisøgning: Billeder repræsentative for en specifik kategori. Kategorisøgning: Billeder repræsentative for en specifik kategori. Associativ søgning: Simpel ”browsing”, tit interaktivt. Associativ søgning: Simpel ”browsing”, tit interaktivt.

Indholdsbaseret billedsøgning Et billede repræsenteres ved dets egenskaber: Et billede repræsenteres ved dets egenskaber: Farve. Farve. Tekstur. Tekstur. Form. Form. Etc. Etc. Søgning: Sammenlign input-billedets egenskaber med egenskaber fra basens billeder. Søgning: Sammenlign input-billedets egenskaber med egenskaber fra basens billeder.

Indholdsbaseret billedsøgning En eller flere egenskabsvektor(er) konstrueres. Repræsenterer billedets egenskaber kvantitativt. En eller flere egenskabsvektor(er) konstrueres. Repræsenterer billedets egenskaber kvantitativt. Egenskabsvektoren kan være lokal eller global. Egenskabsvektoren kan være lokal eller global. Egenskaber: farve, tekstur, form, etc. Egenskaber: farve, tekstur, form, etc.

Indholdsbaseret billedsøgning Mål: Sammenlign fire punktfindere i et setup: IBBS. Mål: Sammenlign fire punktfindere i et setup: IBBS. Anvend dokumenterede og anerkendte metoder. Anvend dokumenterede og anerkendte metoder. HarrisHessianSIFTPedersen SIFT deskriptor Hessian K-Means Punktfindere: Egenskabsvektor: Indeksering:

Punktfindere Finder interessante punkter: Finder interessante punkter: Punkter med en klar, gerne matematisk, definition. Punkter med en klar, gerne matematisk, definition. Oprindeligt brugt ved objekt tracking og til at finde interessante områder (blob detektion). Oprindeligt brugt ved objekt tracking og til at finde interessante områder (blob detektion). Nu også billede-matching og udsyns-baseret objekt genkendelse. Nu også billede-matching og udsyns-baseret objekt genkendelse. Vi ser også gerne at et sådanne punkt detekteres med en tilknyttet skala. Vi ser også gerne at et sådanne punkt detekteres med en tilknyttet skala.

Skala? Ting i den virkelige verden består af forskellige strukturer ved forskellige skalaer. Ting i den virkelige verden består af forskellige strukturer ved forskellige skalaer. Skalarumsteori gør det muligt at håndtere repræsentationer af billeder ved flere skalaer, og derved anvende skala-invariante metoder. Skalarumsteori gør det muligt at håndtere repræsentationer af billeder ved flere skalaer, og derved anvende skala-invariante metoder. Skalaen repræsenteres ved en parameter: σ. Skalaen repræsenteres ved en parameter: σ. Detaljer ”undertrykkes” ved højere skalaer. Detaljer ”undertrykkes” ved højere skalaer. Et billedes skalarepræsentation findes ved foldning med en Gauss: Et billedes skalarepræsentation findes ved foldning med en Gauss:

Punktfindere – Harris Harris klassiske hjørne- og kantfinder. Vi holder os til hjørnerne. Harris klassiske hjørne- og kantfinder. Vi holder os til hjørnerne. Vi betragter et vindue omkring en pixel og sammenligner dette vindue med omkringliggende vinduer. Vi betragter et vindue omkring en pixel og sammenligner dette vindue med omkringliggende vinduer. Ved at udregne summen af kvadraterne af intensitetsændringerne (SSD) kan vi udtale os om ligheden mellem vinduerne. Ved at udregne summen af kvadraterne af intensitetsændringerne (SSD) kan vi udtale os om ligheden mellem vinduerne. Høj SSD i alle retninger: hjørnepunkt. Høj SSD i alle retninger: hjørnepunkt. Auto-korellations matricen beskriver første ordens intensitetsstruktur i et lokalt område: Auto-korellations matricen beskriver første ordens intensitetsstruktur i et lokalt område: To høje egenværdier = hjørnepunkt. To høje egenværdier = hjørnepunkt.

Punktfindere - Pedersen Anvender en statistisk model for et billede: billederne udfald i en stokastisk generisk model for billeder. Interessante punkter er punkter der er usandsynlige under modellen. Anvender en statistisk model for et billede: billederne udfald i en stokastisk generisk model for billeder. Interessante punkter er punkter der er usandsynlige under modellen. Anvender skalarumsteori: punkter skala-invariante. Anvender skalarumsteori: punkter skala-invariante. Finder normaliserede skalarums afledte og konstruerer et 2-jet i hvert punkt: Finder normaliserede skalarums afledte og konstruerer et 2-jet i hvert punkt: Find punkter og deres skala, der minimerer modellens sandsynlighedsfunktion: Find punkter og deres skala, der minimerer modellens sandsynlighedsfunktion:

Punktfindere - Lowe Bruger også skalarumsteori. Bruger også skalarumsteori. Difference-of-Gaussian: Difference-of-Gaussian: Lowe konstruerer en pyramide af DoG billeder. Pyramideformen fremkommer ved jævnligt at ”downsample” billedet. Lowe konstruerer en pyramide af DoG billeder. Pyramideformen fremkommer ved jævnligt at ”downsample” billedet. Punkterne i DoG billederne sammenlignes med dens naboer i et 3x3x3 område. Detekteres som et interessant punkt hvis det er højere/lavere end de andre punkter. Punkterne i DoG billederne sammenlignes med dens naboer i et 3x3x3 område. Detekteres som et interessant punkt hvis det er højere/lavere end de andre punkter. Lowe ”forfiner” punkterne ved at ”fitte” dem til en 3D kvadratisk funktion, og ved at fjerne kantpunkter. Lowe ”forfiner” punkterne ved at ”fitte” dem til en 3D kvadratisk funktion, og ved at fjerne kantpunkter.

Punktfindere - Hessian En Hessian matrix er en kvadratisk matrix af alle andenordens partielt afledte af en funktion af flere variabler. En Hessian matrix er en kvadratisk matrix af alle andenordens partielt afledte af en funktion af flere variabler. I vores tilfælde en 2x2 matrix: I vores tilfælde en 2x2 matrix: Interessante punkter detekteres som lokale maksima i matricens determinant: Interessante punkter detekteres som lokale maksima i matricens determinant:

Hvad med skala i Harris og Hessian? Harris og Hessian har ikke skalaselektion ”indbygget” som i Lowe og Pedersen. Harris og Hessian har ikke skalaselektion ”indbygget” som i Lowe og Pedersen. Vi skal derfor udføre en ”ekstern” skalaselektion. Vi skal derfor udføre en ”ekstern” skalaselektion. Til det benyttet Laplace operatoren: Til det benyttet Laplace operatoren: For hvert punkt finder vi Laplace operatorens maksima. For hvert punkt finder vi Laplace operatorens maksima.

SIFT deskriptor Beskriver den lokale struktur omkring et punkt. Baseret på gradient data. Beskriver den lokale struktur omkring et punkt. Baseret på gradient data. 128-dimensionel vektor! 128-dimensionel vektor! Invariant overfor visse billedtransformation, herunder skala. Invariant overfor visse billedtransformation, herunder skala. Rotationsinvarians opnås ved at beregne deskriptoren i forhold til punktets (gradient) retning, så hvert punkt tildeles først en retning. Rotationsinvarians opnås ved at beregne deskriptoren i forhold til punktets (gradient) retning, så hvert punkt tildeles først en retning. Skalainvarians opnås ved at benytte skalarumsbilleder. Skalainvarians opnås ved at benytte skalarumsbilleder.

Indeksering/Søgning Vi segmenterer egenskabsvektorerne i homogene klynger. Vi segmenterer egenskabsvektorerne i homogene klynger. K-means: K-means: Vælger klyngernes centrum. Vælger klyngernes centrum. Tildeler objekterne til de nærmeste klynger Tildeler objekterne til de nærmeste klynger Udregner nyt centrum Udregner nyt centrum Færdig? Færdig? Problemer med K-means: Problemer med K-means: Stærkt afhængig af den første ”seedning” af klyngecentrumerne. Stærkt afhængig af den første ”seedning” af klyngecentrumerne. At vælge et fornuftigt klyngeantal kan være svært. At vælge et fornuftigt klyngeantal kan være svært. Resultatet skrevet til en ”inverted” fil. Resultatet skrevet til en ”inverted” fil. Ved søgning: Ved søgning: Find punkter, udregn egenskabsvektorer, find nærmeste klyngecentrum. Find punkter, udregn egenskabsvektorer, find nærmeste klyngecentrum. Find billeder fra basen med fælles klynger. Find billeder fra basen med fælles klynger.

Resultater Anvender en ”ground-truth” billedsamling. Anvender en ”ground-truth” billedsamling. Følgende mål evalueres: Følgende mål evalueres: Rangen af første relevante billede. Rangen af første relevante billede. Præcision (forholdet mellem antallet af relevante returnerede billeder og det totale antal returnerede billeder); siger noget om støjen. Præcision (forholdet mellem antallet af relevante returnerede billeder og det totale antal returnerede billeder); siger noget om støjen. ”Recall” (forholdet mellem antallet af relevante returnerede billeder og det totale antal relevante billeder); siger noget om hvor meget vi gik glip af. ”Recall” (forholdet mellem antallet af relevante returnerede billeder og det totale antal relevante billeder); siger noget om hvor meget vi gik glip af. Normaliserede rang: gennemsnitlige rang af relevante billeder (en værdi på 0 betyder at alle relevante billeder blev returneret først mens en værdi på ½ betyder tilfældig returnering). Normaliserede rang: gennemsnitlige rang af relevante billeder (en værdi på 0 betyder at alle relevante billeder blev returneret først mens en værdi på ½ betyder tilfældig returnering).

Resultater Selvom om Harris detektoren er overlegen hvad angår rangen af første relevante billeder, og Pedersen detektoren har en generelt bedre normaliseret rang af alle punktfinderne. Så står ingen af detektorerne frem som markant bedre end resten! Selvom om Harris detektoren er overlegen hvad angår rangen af første relevante billeder, og Pedersen detektoren har en generelt bedre normaliseret rang af alle punktfinderne. Så står ingen af detektorerne frem som markant bedre end resten! Variationen i den normaliseret rang var større ved anvendelse af forskellige klyngestørresler ved indekseringen end den var anvendelsen af de forskellige punktfindere! Variationen i den normaliseret rang var større ved anvendelse af forskellige klyngestørresler ved indekseringen end den var anvendelsen af de forskellige punktfindere!

Konklusion Ingen af punktfinderne synes at være markant bedre end resten. Ingen af punktfinderne synes at være markant bedre end resten. Noget kunne tyde på at elementer som indekseringen kan have en større indflydelse på en endelige ”performance”. Noget kunne tyde på at elementer som indekseringen kan have en større indflydelse på en endelige ”performance”. Masser af muligheder for forbedringer: Masser af muligheder for forbedringer: Bedre indeksering (ny metode, bedre parameterestimation). Bedre indeksering (ny metode, bedre parameterestimation). Prøv flere billeddatabaser. Prøv flere billeddatabaser. Eksperimenter med vægtene. Eksperimenter med vægtene. Eksperimenter med stop-lister. Eksperimenter med stop-lister.

Evaluering af punktfindere ved indholdsbaseret billedsøgning Speciale – Jacob Rohde.

Lignende præsentationer

Præsentationer af emnet: "Evaluering af punktfindere ved indholdsbaseret billedsøgning Speciale – Jacob Rohde."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback

Log ind

Logge ind via sociale netværk:

Evaluering af punktfindere ved indholdsbaseret billedsøgning Speciale – Jacob Rohde.

Lignende præsentationer

Præsentationer af emnet: "Evaluering af punktfindere ved indholdsbaseret billedsøgning Speciale – Jacob Rohde."— Præsentationens transcript:

Lignende præsentationer

Om projektet

Feedback