7 - CBIR Flashcards
Cos’è il CBIR?
CBIR è l’acronimo di Content-Based Image Retrieval, che in italiano significa “recupero delle immagini basato sul contenuto”. Si tratta di una tecnica utilizzata per cercare immagini all’interno di un database in base alle loro caratteristiche visive, come colore, forma, texture e altri elementi del contenuto visivo, anziché basarsi su metadati o etichette associate alle immagini.
L’obiettivo del CBIR è consentire agli utenti di cercare e recuperare immagini in base al loro contenuto visivo, piuttosto che utilizzando parole chiave o descrizioni testuali. Questo è particolarmente utile quando le informazioni testuali associate alle immagini non sono disponibili o non sono affidabili.
Il processo di CBIR coinvolge diversi passaggi:
Estrazione delle caratteristiche: Le caratteristiche visive rilevanti vengono estratte dalle immagini nel database. Queste caratteristiche possono includere il colore, la forma, la texture e altre proprietà visive delle immagini. Creazione dell'indice: Le caratteristiche estratte vengono utilizzate per creare un indice o una rappresentazione compatta delle immagini nel database. L'indice consente di effettuare ricerche rapide ed efficienti. Query delle immagini: Gli utenti inviano una query, che può essere un'immagine di esempio o una descrizione testuale delle caratteristiche desiderate, al sistema CBIR. Corrispondenza e ranking: Il sistema CBIR confronta la query con l'indice delle immagini nel database e determina le immagini più simili in base alle caratteristiche visive. Le immagini vengono quindi classificate in base al grado di similarità e vengono restituite all'utente in ordine di rilevanza. Visualizzazione dei risultati: I risultati della ricerca vengono presentati all'utente, che può esaminare le immagini recuperate e selezionare quelle che soddisfano meglio le sue esigenze.
Il CBIR viene utilizzato in diversi ambiti, tra cui la gestione delle immagini, la sorveglianza video, l’archiviazione delle immagini mediche e molte altre applicazioni in cui è necessario recuperare immagini basandosi sul loro contenuto visivo.
Concetto di similarità in un CBIR
Nel contesto di un CBIR (Content-Based Image Retrieval), il concetto di similarità si riferisce alla misura di quanto due immagini siano simili o corrispondenti in base alle loro caratteristiche visive. La similarità è utilizzata per confrontare la query dell’utente con le immagini presenti nel database e determinare quelle che sono più rilevanti per la ricerca.
La scelta di una misura di similarità dipende dalle caratteristiche visive considerate nel sistema CBIR. Alcune delle caratteristiche comuni utilizzate includono colore, forma, texture e altre proprietà visive.
Ecco alcuni esempi di misure di similarità comuni utilizzate nel CBIR:
Distanza euclidea: Calcola la distanza euclidea tra le caratteristiche delle immagini, ad esempio le distanze dei vettori di colore o le distanze tra le caratteristiche di texture. Immagini con distanze più piccole sono considerate più simili. Distanza di correlazione: Misura la correlazione tra le caratteristiche delle immagini, ad esempio la correlazione tra i vettori di colore. Immagini con correlazioni più alte sono considerate più simili. Distanza coseno: Calcola l'angolo tra i vettori delle caratteristiche delle immagini. Immagini con angoli più piccoli (o coseni più vicini a 1) sono considerate più simili. Indice di similarità strutturale (SSIM): Valuta la similarità strutturale tra le immagini, considerando le informazioni di luminanza, contrasto e struttura. Maggiore è il valore SSIM, maggiore è la similarità. Distanza di Hamming: Utilizzata per confrontare le caratteristiche binarie, ad esempio quando le caratteristiche sono rappresentate da codici binari. La distanza di Hamming conta il numero di bit diversi tra i codici. Immagini con una distanza di Hamming più piccola sono considerate più simili.
La scelta della misura di similarità dipende dalle specifiche esigenze del sistema CBIR e dalle caratteristiche delle immagini che vengono considerate. È possibile utilizzare una combinazione di diverse misure di similarità per ottenere risultati più accurati e rilevanti nella ricerca delle immagini.
Quali sono le caratteristiche primitive di una immagine?
Le caratteristiche primitive di un’immagine si riferiscono agli elementi di base o alle informazioni fondamentali che possono essere estratte da un’immagine senza ulteriori elaborazioni complesse. Queste caratteristiche rappresentano gli elementi visivi di base dell’immagine e possono essere utilizzate come blocchi di costruzione per l’estrazione di caratteristiche più complesse.
Ecco alcune delle caratteristiche primitive comuni di un’immagine:
Intensità dei pixel: L'intensità dei pixel rappresenta il valore di luminosità o colore di ciascun pixel dell'immagine. Può essere rappresentata da una scala di grigi o da un modello di colore specifico (come RGB, HSV, etc.). Distribuzione dell'intensità: La distribuzione dell'intensità rappresenta come sono distribuiti i valori di intensità dei pixel nell'immagine. Può essere rappresentata tramite un istogramma di intensità che mostra la frequenza di ciascun valore di intensità. Dimensione dell'immagine: La dimensione dell'immagine rappresenta le sue proprietà spaziali, come larghezza e altezza in pixel. Orientamento: L'orientamento si riferisce alla direzione predominante dei bordi o delle linee presenti nell'immagine. Può essere rappresentato ad esempio attraverso l'utilizzo di filtri di gradiente. Forma: La forma si riferisce alle caratteristiche geometriche o strutturali dell'oggetto rappresentato nell'immagine. Può essere descritta utilizzando descrittori di forma come i momenti di Hu o la trasformata di Hough. Texture: La texture rappresenta i modelli o le ripetizioni locali delle caratteristiche dell'immagine, come rugosità, grana o pattern. Può essere descritta utilizzando descrittori di texture come il Local Binary Patterns (LBP) o le matrici di co-occorrenza delle texture.
Quali sono le caratteristiche derivate o logiche di una immagine?
Le caratteristiche logiche in un’immagine si riferiscono alle proprietà o agli attributi che descrivono la struttura, la disposizione e la relazione degli oggetti o degli elementi all’interno dell’immagine. Queste caratteristiche logiche vanno oltre le informazioni visive di base e si concentrano sul significato o sulla semantica dell’immagine.
Ecco alcune delle caratteristiche logiche comuni di un’immagine:
Oggetti o regioni di interesse: Le caratteristiche logiche possono descrivere la presenza e la posizione di oggetti o regioni specifiche di interesse nell'immagine. Ad esempio, la presenza di una persona, un veicolo o un edificio. Gerarchia e relazioni: Le caratteristiche logiche possono rappresentare la gerarchia o le relazioni tra gli oggetti o le regioni nell'immagine. Ad esempio, la relazione di "padre-figlio" tra un oggetto principale e i suoi oggetti sottostanti. Etichette o categorie: Le caratteristiche logiche possono essere utilizzate per etichettare o categorizzare gli oggetti o le regioni nell'immagine in base a determinati criteri o classi. Ad esempio, classificare gli oggetti come "animale" o "oggetto". Contesto spaziale: Le caratteristiche logiche possono descrivere il contesto spaziale degli oggetti o delle regioni nell'immagine. Ad esempio, se un oggetto è vicino a un altro oggetto, se si sovrappone a un altro oggetto, o se è all'interno di un'area specifica. Connessione e coerenza: Le caratteristiche logiche possono indicare la connessione o la coerenza tra gli elementi dell'immagine. Ad esempio, se gli oggetti sono collegati o separati, se seguono uno schema o una disposizione specifica. Strutture geometriche: Le caratteristiche logiche possono descrivere le strutture geometriche presenti nell'immagine. Ad esempio, linee parallele, punti di intersezione, angoli o simmetrie.
Le caratteristiche logiche sono spesso utilizzate in applicazioni di analisi delle immagini o di riconoscimento degli oggetti per comprendere il contenuto e il contesto dell’immagine in modo più significativo.
Quali sono le caratteristiche astratte di una immagine?
Le caratteristiche astratte di un’immagine si riferiscono alle proprietà o agli attributi che vanno oltre gli aspetti visivi o logici dell’immagine e si concentrano su concetti o significati più complessi. Queste caratteristiche astratte coinvolgono una comprensione più profonda dell’immagine e spesso richiedono un’interpretazione o un contesto più ampio per essere apprezzate pienamente.
Ecco alcune delle caratteristiche astratte comuni di un’immagine:
Emozioni ed espressioni: Le caratteristiche astratte possono rappresentare le emozioni o le espressioni che possono essere percepite nell'immagine. Ad esempio, gioia, tristezza, paura o sorpresa. Queste caratteristiche possono essere identificate attraverso l'analisi delle espressioni facciali o degli elementi emotivi presenti nell'immagine. Stile artistico: Le caratteristiche astratte possono rappresentare lo stile artistico dell'immagine, come impressionismo, cubismo, surrealismo o altre forme di espressione artistica. Queste caratteristiche possono riguardare l'uso di colori, forme, composizione o tecniche specifiche. Concetti concettuali: Le caratteristiche astratte possono rappresentare concetti o idee astratte presenti nell'immagine. Ad esempio, libertà, pace, solitudine o caos. Queste caratteristiche richiedono spesso una comprensione più profonda dell'immagine e possono essere soggettive. Simbolismo o metafore: Le caratteristiche astratte possono rappresentare simbolismo o metafore presenti nell'immagine. Ad esempio, un'immagine di un tramonto può simboleggiare la fine di qualcosa o la transizione verso qualcosa di nuovo. Queste caratteristiche richiedono una comprensione simbolica o concettuale dell'immagine. Narrativa o storia: Le caratteristiche astratte possono riguardare la narrazione o la storia implicita nell'immagine. Possono rappresentare un momento, una situazione o un evento che può essere interpretato o compreso attraverso l'immagine stessa o il contesto circostante. Concetti culturali o sociali: Le caratteristiche astratte possono riflettere i concetti culturali o sociali presenti nell'immagine. Possono riguardare la cultura, la società, le tradizioni o i valori specifici rappresentati nell'immagine.
Le caratteristiche astratte sono spesso soggettive e possono variare a seconda dell’osservatore e del contesto.
Cos’è il teorema di parseval?
Il teorema di Parseval è un importante risultato matematico che stabilisce una relazione tra il dominio del tempo e il dominio delle frequenze di un segnale.
In termini semplici, il teorema di Parseval afferma che l’energia totale di un segnale nel dominio del tempo è uguale all’energia totale del suo spettro nel dominio delle frequenze.
Formalmente, se consideriamo un segnale nel dominio del tempo f(t) e il suo spettro corrispondente nel dominio delle frequenze F(ω), il teorema di Parseval può essere espresso come segue:
∫ |f(t)|^2 dt = (1/2π) ∫ |F(ω)|^2 dω
Dove:
|f(t)|^2 rappresenta il modulo al quadrato del segnale nel dominio del tempo. |F(ω)|^2 rappresenta il modulo al quadrato dello spettro del segnale nel dominio delle frequenze. ∫ indica l'integrale che viene eseguito sull'intervallo appropriato.
In altre parole, l’integrale dell’energia del segnale al quadrato nel dominio del tempo è uguale all’integrale dell’energia del suo spettro al quadrato nel dominio delle frequenze, scalato da un fattore di (1/2π).
Il teorema di Parseval è ampiamente utilizzato nell’analisi dei segnali e nelle applicazioni della trasformata di Fourier
Come si misurano le prestazioni di un CBIR?
Le prestazioni di un Content-Based Image Retrieval (CBIR) system possono essere valutate utilizzando diverse misure o metriche, che riflettono la qualità e l’efficacia del sistema nel recuperare le immagini desiderate in base al loro contenuto visivo. Ecco alcune delle metriche comuni utilizzate per valutare le prestazioni di un CBIR:
Precisione (Precision): La precisione misura la frazione di immagini recuperate che sono rilevanti rispetto al totale delle immagini recuperate. Indica quanto il sistema è in grado di recuperare solo le immagini corrispondenti alla richiesta dell'utente. Recall (Recall): Il recall misura la frazione di immagini rilevanti che sono state recuperate rispetto al totale delle immagini rilevanti presenti nel database. Indica quanto il sistema è in grado di recuperare tutte le immagini corrispondenti alla richiesta dell'utente. F-measure: L'F-measure è una misura che combina precisione e recall in un unico valore. È una media ponderata delle due misure e fornisce una valutazione complessiva delle prestazioni del sistema. Mean Average Precision (mAP): La mAP è una misura che valuta la precisione media su diverse query. Viene calcolata come la media delle precisioni per ciascuna query e fornisce una valutazione complessiva delle prestazioni del sistema su un insieme di query. Mean Reciprocal Rank (MRR): L'MRR misura la posizione media del primo documento rilevante nell'elenco dei risultati recuperati. Indica quanto rapidamente il sistema è in grado di recuperare la prima immagine rilevante. Top-n Accuracy: La Top-n Accuracy misura la percentuale di query in cui almeno una delle prime n immagini recuperate è rilevante. Indica quanto spesso il sistema riesce a recuperare almeno una buona corrispondenza nelle prime posizioni dei risultati. Curva di recupero (Precision-Recall Curve): La curva di recupero mostra la variazione della precisione al variare del recall. Può fornire una rappresentazione visiva delle prestazioni del sistema in termini di trade-off tra precisione e recall.
Queste sono solo alcune delle metriche comunemente utilizzate per valutare le prestazioni di un CBIR system. La scelta delle metriche dipende dall’applicazione specifica e dagli obiettivi del sistema