algoweb Flashcards
struttura web, motore di ricerca e idea crawling
papillon, tre fasi motore di ricerca, crawler come visita grafo, bontà seed, cicli
gestione frontiera offline
concetto crivello, frontiera offline, crivello mercator
LSTM tree
perchè, in cosa funzionano bene, operazioni e miglioramenti
filtri bloom
idea, operazioni, dimostrazione FPR, miglioramenti
politeness e quasi duplicati
sim hash, politness relativa e assoluta, robot.txt, gestione quai duplicati
concorrenza web crawler
idea distribuzione per fetching, lock ipotesi, algoritmo per coda con test and set
distribuzione carico
possibilità per dividere gli url fra gli host, utilizzo di sistemi esterni (paxos), utilizzo di funzioni locali (carattersitiche funzioni), modulo, permutazioni, min hash e hash coerente
architettura web crawler
immagine architettura, tutti gli elementi e i possibili filtri
codici (intro)
cos’è un codice, cos’è un codice istantaneo e cosè un istantaneo completo, unario e disuguaglianza craft mcMillan
codifica binaria ridotta, conversione codice -> istantaneo, codice istantaneo e probabilità
codice universale,pfor-delta,compressione aritmetica, compressione numerica asimmetrica
codice binario minimale
rappresentazione documento (indexing), struttura dati per effettuare indexing, merge multi via
hash minimali perfetti e come utilizzarli per creare un ordinamento lessicografico,Firma per verificare elemento in ordinamento, hash minimale perfetto per verificare appartenenza di un elemento ad un insieme
codici per salvare e strategie per salvare in memoria, lettura codice
salvare dati indicizzazione, inversione matrice, hash minimali perfetti e come utilizzarli per creare un ordinamento lessicografico,Firma per verificare elemento in ordinamento, hash minimale perfetto per verificare appartenenza di un elemento ad un insieme
codici per salvare e strategie per salvare in memoria, lettura codice