Web e motori di ricerca Flashcards
World Wide Web
Web → rete costituita da miliardi di documenti interconnessi tra loro tramite link ipertestuali.
Pagina web → documento elettronico che può contenere testo, immagini, link ecc
Sito web → insieme di pagine web gestite da azienda o singolo, memorizzato su uno o più calcolatori
HTTP (Hyper Text Transfer Protocol) → protocollo a livello di applicazione usato dai computer per comunicare sul web
HTML (Hyper Text Markup Language) → linguaggio di markup che indica il formato che deve avere una pagina web
URL (Uniform Resource Locator) → usato per assegnare ad ogni documento un indirizzo univoco in modo da poterlo trovare sul web
Ricerca nel Web
- il web non è gestito in maniera unitaria e coerente (chiunque può creare pagine o siti web, non si possono controllare i contenuti)
- ogni giorno nascono/scompaiono migliaia di nuovi siti
- ci sono migliaia di miliardi di pagine web → le informazioni potenzialmente ci sono, bisogna solo trovarle
L’accesso ad una pagina web può avvenire in 3 modi:
- Utente entra direttamente digitando l’URL
- Utente arriva indirettamente da link su un altro sito
- Utente utilizza un motore di ricerca
Motore di ricerca
Motore di ricerca → sistema in grado di localizzare, indicizzare e ricercare le pagine web
Opera in 3 fasi distinte:
- Localizzazione delle pagine web (semiautomatica)
- Indicizzazione delle pagine localizzate (automatica)
- Ricerca (interattiva)
Localizzazione delle pagine web
Viene eseguita dalla Web Search Agent (WSA) detta anche spider, crawler, wanderer o worm.
Il WSA localizza le pagine web lavorando ricorsivamente:
- parte da lista di URL noti, forniti dai gestori del motore di ricerca
- analizza i documenti e cerca link a nuovi URL
- aggiorna la propria lista di URL e visita gli URL aggiunti cercandone di nuovi
Il WSA può localizzare solo gli URL che sono raggiungibili a partire dalla lista di partenza → i motori di ricerca consentono ai creatori di pagine web di pubblicizzarle inserendole nella lista iniziale di URL.
Localizza solo una piccola parte di Web, non possono raggiungere pagine protette da password, il processo di localizzazione richiede diversi giorni
Indicizzazione automatica delle pagine web
Processo che esamina gli oggetti informativi (parole o frasi) che compongono il documento.
Produce una lista dei termini indice (index terms) presenti nell’intera collezione di documenti → l’estrazione di index terms viene fatta da algoritmi
L’uso degli index terms semplifica e accelera la ricerca.
Viene eseguita off-line prima dell’interazione con l’utente,
Ricerca delle pagine web
Consente di selezionare i documenti che sono rilevanti per l’utente
I documenti vengono reperiti a seguito di una query che fornisce al sistema delle keyword.
L’interazione con l’utente avviene sotto forma di ciclo:
- presentazione → il sistema mostra all’utente i risultati della ricerca
- valutazione → l’utente consulta i documenti e decide se soddisfano le sue esigenze
E’ interattiva e l’utente ha un ruolo determinante per la sua efficacia.
Viene eseguita on-line interagendo con l’utente che formula la query usando le keyword. Il sistema indicizza la query r calcola la potenziale pertinenza dei documenti in base al confronto tra gli indici della query e gli indici dei documenti.
Operatori logici
E’ possibile raffinare la propria ricerca tramite la funzione di ricerca avanzata e oltre alle keyword si possono inserire degli operatori logici.
- AND → termini presenti contemporaneamente
- OR → almeno uno dei due termini
- NOT → pagine in cui non è presente quel termine
- \””\ → ricerca esatta
Operatori di ricerca
Sono parole specifiche, seguite dai due punti che filtrano la ricerca in base a modalità particolari [Operatore di ricerca]:[Query di ricerca]
- site: → cerco un sito, sottodominio o URL
- inurl/allinurl: → cerco una parola o tutte dell’URL della pagina
- filetype: → cerco un estensione di file particolare
- intitle/allintitle: → cerco pagine con una certa parola nel titolo (tag title di pagina HTML)
- intext/allintext: → cerco pagine che contengono una parola nel contenuto
- weather: → meteo citta
- stocks: → informazioni su azioni per certo codice azionario
- map: → forza maps con ricerca su un luogo
- in: → converte un’udm in un’altra