algoweb Flashcards
struttura web, motore di ricerca e idea crawling
papillon, tre fasi motore di ricerca, crawler come visita grafo, bontà seed, cicli
gestione frontiera offline
concetto crivello, frontiera offline, crivello mercator
LSTM tree
perchè, in cosa funzionano bene, operazioni e miglioramenti
filtri bloom
idea, operazioni, dimostrazione FPR, miglioramenti
politeness e quasi duplicati
sim hash, politness relativa e assoluta, robot.txt, gestione quai duplicati
concorrenza web crawler
idea distribuzione per fetching, lock ipotesi, algoritmo per coda con test and set
distribuzione carico
possibilità per dividere gli url fra gli host, utilizzo di sistemi esterni (paxos), utilizzo di funzioni locali (carattersitiche funzioni), modulo, permutazioni, min hash e hash coerente
architettura web crawler
immagine architettura, tutti gli elementi e i possibili filtri
codici (intro)
cos’è un codice, cos’è un codice istantaneo e cosè un istantaneo completo, unario e disuguaglianza craft mcMillan
codifica binaria ridotta, conversione codice -> istantaneo, codice istantaneo e probabilità
codice universale,pfor-delta,compressione aritmetica, compressione numerica asimmetrica
codice binario minimale
rappresentazione documento (indexing), struttura dati per effettuare indexing, merge multi via
hash minimali perfetti e come utilizzarli per creare un ordinamento lessicografico,Firma per verificare elemento in ordinamento, hash minimale perfetto per verificare appartenenza di un elemento ad un insieme
codici per salvare e strategie per salvare in memoria, lettura codice
salvare dati indicizzazione, inversione matrice, hash minimali perfetti e come utilizzarli per creare un ordinamento lessicografico,Firma per verificare elemento in ordinamento, hash minimale perfetto per verificare appartenenza di un elemento ad un insieme
codici per salvare e strategie per salvare in memoria, lettura codice
stemming, motore ricerca binario, query or e query and (modo migliore per utilizzare skip-to)
idea iteratori per motore query, operatori not, frasali, finestra, skip to
dello skip to parlo dell’implementazione sui vari operatori
betwennes, calcolo metriche ranking esogenti e intro ranking spettrali
idea dietro, prodotto matrici, A^t
autovettori e autovalori (cosa sono), correlazione autovettore dominante-> ranking spettrale, indice di ceedy
pagerank, da ceedy a matrice, catene markov
dimostrazione pagerank,indice di kats, hyperbal, computazione su matrici del web
funzionamento hyperlog counter e broadboard
metriche per valutare il ranking, costruzione groundTruth
information theoretical lower bound, strutture succinte, alberi binari, rango e selezione
elias fano (costruzione, spazio, ranking e selezione), come usarlo per rappresentare le liste di affissioni e come effettuare le operazioni in maniera ottimale dal punto di vista ingegneristico
compressione grafo
metodo “naive”, utilizzo di bitmap, utilizzo di block e copy block, utilizzo di range
riduzione di dimensionalità
solo idea
product quantization
scopo, tecnica per velocizzare il prodotto, tecnica per limitare lo spazio di ricerca
leggere codice efficente, memorizzare indici, inversione di matrice