Introduction/Internet-Suche Flashcards
Was ist die Internet-Suche und nennen Sie ein Beispiel.
Internet-Suche ist eine Funktion (… , und eine Software? die Objekte im Internet sucht?), die heute von vielen Menschen täglich genutzt wird. Das populärste
Beispiel ist die Web-Suche (Objekte = Webseiten), bei der Google und Bing heute in der westlichen Welt quasi unsere Sicht auf
das Web diktieren
Was ist die Intranet-Suche? Nennen Sie ein Beispiel.
Es ist eine Web-basierte Anwendung, bei der die Suche eine Rolle spielt (wie bei Internet-Suche). Es ist die organisiationsinterne Variante der Web-Suche. Z.B.
- Produktsuche bei Internet-Shops,
- Die Suche in Online-Publikationen,
- Suche in Digitale Bibliotheken,
- Multimedia-Suche wie z.B. in Bild-, Video- oder Musikdatenbanken.
Wie unterscheidet sich die Internet-Suche von der Intranet-Suche?
Intranet-Suche heisst organisationsinterne Variante der Web-Suche. Die Web Suche ist die Suche im World Wide Web.
Was sind die Facetten der …[..]..Suche?
- Sprache - monolinguale, crosslinguale oder multilinguale Suche
- Struktur - Feldstruktur (Literatursuche) Graph-Struktur (Verlinkung in der Web-Suche von Dokuementen), oder baumartiger Struktur (XML-dokumenten).
- Medien- IR Methoden können auf Text, Fakten, Bilder, Audiodaten und auf Videos angewendet werden. Bsp: Ähnlichkeitssuche auf Bildern (Gazopa - similar image search)
- Objekte- die Suche nach bestimmten Objketen. Z.b. nach Personen (linkedin?), nach Formen (www.firmenfinde.de)
- Statische/dynamische Inhalte: kommen immer neue Dokumente hinzu? -> dynamische Inhalte (Bsp. Twitter, news.google.de). Ansonsten: statistische Inhalte
Beschreiben die Suche Facette Struktur und geben Sie Beispiele.
Facette Struktur: die Struktur der Suche bestimmt von den Elementen, die gesucht werden:
- Feldstruktur (Felder Struktur) (Bsp. Literatursuche: Title, Autoren, Kurzfassung, …),
- Graph-Struktur (Bsp. Verlinkung in der Web-Suche von Dokumenten),
- Baumartiger Struktur (Bsp. XML-dokumenten).
Welche Rolle spielt die Suchqualität und was ist es?
Ein wichtiges Kriterium bei der Auswahl eines Dienstes ist fur die Benutzer die Suchqualität
??Search Quality -> Precision and Recall.
Hohe Suchqualität heisst hoche Precision und Recall. Man will, dass man in einer Suche alle relevanten Dokumenten und wenige nicht-relevanten Dokumente findet.
Precision- von denen die wir gefunden haben, wie viele waren relevant?
Recall- wie viele von den Relevanten haben wir gefunden?
What is Precision?
Precision- von denen die wir gefunden haben, wie viele waren relevant?
(“Precision gibt den Anteil der relevanten an den gefundenen Dokumenten wieder.”)
p :=|REL ∩ GEF| / |GEF|
Precision ist immer leicht auszurechnen.
Was ist Recall?
Recall- wie viele von den Relevanten haben wir gefunden?
“Recall dagegen bezeichnet den Anteil der relevanten Dokumente, die tats¨achlich gefunden wurden.”
r :=|REL ∩ GEF| / |REL|
Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur
aktuellen Anfrage enth¨alt. Ein System liefert 10 Dokumente, von denen 8 relevant sind.
Was ist Precision und Recall?
Precision: (von denen die wir gefunden haben, wie viele waren relevant? )
= 8/10 = .8
Recall: (wie viele von den Relevanten haben wir gefunden?)
= 8/20 = 0.4
Was ist ein Vorteil von Precision?
Bei Precision muss man nicht wissen, wie viele Dokumente überhaupt relevant sind. Das muss man bei Recall wissen.
Was ist Informationskompetenz?
Informationskompetenz: die Fähigkeit,
sich eine ausreichende Entscheidungsgrundlage zu beschaffen. Sie besteht aus 6 Schritten: (1-3 hier)
1. Aufgabendefinition: Informationbedürfnis identifizieren.
Impliziert: Erkennung vom Bedüfnis
2. Informations-Beschaffungs-Strategien: bestimme alle möglichen Info-Quellen (auch Menschen möglich). Wähle beste Quelle aus.
Impliziert: Nutzer muss Strategien und Quellen kennen.
3. Lokalisierung und Zugriff: Quellen lokalisieren, dann innerhalb der Quelle suchen und Dokumente/Information finden.
Impliziert: Nutzer muss Quelle lokalisieren können und …
Nennen Sie die Schritte 4-6 von Informationskompetenz:
- Benutze die Information: Man schaut gefundene Dokumente etc. an und extrahiert Info.
Impliziert: Nutzer muss in der Lage sein, …. - Synthese (Organisiere Info aus verschiedenen Quellen.)
Impliziert: …. - Bewertung: Abschliesend Produkt beurteilen - Effektivität Effizienz der Suche beurteilen. HERAUSFORDERUNG: Nutzer muss in der Lage sein, Information kritisch zu beurteilen.
Was sind die Benachbarter Kompetenzen zu Informatskompentenz?
Bibliothekskompetenz bezieht sich auf die F¨ahigkeit, eine Bibliothek (physisch oder digital) zu nutzen
• Computerkompetenz betrifft die generelle Nutzung eines Computers.
• Digitalkompetenz ist die F¨ahigkeit, uber Computer dargestellte Information unterschiedlicher For- ¨
mate verstehen und anwenden zu k¨onnen.
• Internet-Kompetenz bezieht sich auf die Nutzung des Internet allgemein.
• Suchkompetenz ist die F¨ahigkeit, effektiv in Informationssystemen zu suchen (s.u.).
• Kommunikationskompetenz betrifft die Kommunikation mit anderen Personen auf allen m¨oglichen
Kan¨alen.
• Lesekompetenz ist die grundlegende F¨ahigkeit, Information aus Texten zu extrahieren.
• Medienkompetenz bezieht sich auf den Umgang mit allen m¨oglichen Medien – vom einfachen Text
bis hin zur Navigation in virtuellen Welten.
• Schreibkompetenz ist schließlich die F¨ahigkeit, Gedanken niederzuschreiben
Woraus besteht eine Web-Suchmaschine?
- Crawler -sammelt Dokumente
- Parser/Indexer - Dokument in Wörter zerlegen, dann ling. Alg angewandt und gewichtet.
indexiert“) - Datenbank - Ergebnisse von Parser speichern
- Searcher - über Browser an Such-Interface zugreifen.
Was macht der Crawler und Parser/Indexer in einer Web-Suchmaschine?
Crawler:
Diese Komponente sammelt die Dokumente aus dem Web auf. Hierzu startet der Crawler mit einer Liste von Web-Servern, deren Dokumente zuerst abgefragt werden, und von wo aus dann Links zu neuen Quellen verfolgt werden.
Parser:
Extrahiert Schlüsselwörter aus Dokument, der reine Text, …in einzelne W¨orter zerlegt, dann
linguistische Algorithmen und Gewichtungsmethoden angewandt (”
indexiert“)
Was ist ‘Suchbarkeit’?
Welche Dokumente sind potenziell überhaupt durch die Suchmaschine zu finden.
Welche Voraussetzung muss ein Dokument erfüllen, um eine hohe ‘Suchbarkeit’ zu können?
- Die Suchmaschine muss Zugriff auf das Dokument haben. Das Dokument muss öffentlich zugänglich sein. Das Dokument muss durch Verlinkung erreichbar sein, und es robots.txt sollte Zugang erlauben.
- Die Webseite soll aktuell sein.
- Das Dokument sollte in HTML oder bekanntem Format sein.
- Die Sprache der Website muss passen.
Was sind linguistische Funktionen?
(typical search functions in the user’s GUI when they search for a document.) Sie sind übliche Suchfunktionen für den Benutzer bei der Suche nach einem Dokument in der Benutzeroberfläche, basiered auf Zweichenkettenvergleich.
1. Wortnormalisierung - verschiedene Schreibweisen normalisieren
2. Grundformreduktion - linguistische Grundform finden: Bsp: Häuser – Hauses – Hause – Haus
3. Phrasen - Abstandsuche in einer Phrase - Bsp mit ‘*”: “information retrieval”, “retrieval * information” (?)
4. Komposita: trennen von zusammengesetze Befriffe (?)
5. Synonyme - nach Synonymen suchen
mit ‘∼’: Beispiel: Handy Mobiltelefon Smartphone <=> ∼handy
Was ist die Anfragesprache, wann spielt es eine Rolle/wann ist es hilfreich? Welche Anfragesprache-Operatoren bietet Google an?
Anfragesprache: man benutzt die Anfragesprache umkomlexere Anfragen in der Such- Benutzeroberfläche. zu formulieren.
Google Operator:
- boolesche Operatoren, UND ODER, -
- Zahlenbereiche: 100..200 Euro
- Facetten: Einschränkung nach Google Facetten (Bilder, Maps, .., Ort, Sprache ..)
- Feld-Prädikate: inurl:, intext:, …
- URL- Prädikate: link:uni-due.de - site:uni-due
Was ist boolesche Operatoren
Eine der Google’s Operatoren für Anfragesprache:
1. Boolesche Operatoren: Implizit: AND zw. alle Begriffe. ‘OR’ kann man benutzen, wenn AND nicht gewünscht ist. und ‘-‘ ist Negation
Was sind Facetten als Operator der Anfragesprache?
Einer Google’s Operatoren für Anfragesprache:
3. Facetten: Erlauben die Einschränkung der Antwortmenge durch Objekttyp, Standort, Sprache oder Zeitraum (????)
Was ist ein Feldprädikat?
Beschränkt die Suche auf diese Felder (url, anchor, text …)
4. Feld-Prädikate. Bsp inurl: , inanchor:, intitle:, intext: ..Beschränken die Suche des betreffenden Wortes auf Felder wie die URL usw. ‘all’ -> alle Suchterme müssen Bedingung erfüllen.
Was ist ein URL-Prädikat?
Einer Google’s Operatoren für Anfragesprache:
Bezieht sich auf Verlinkung.
1. “site:”obj : Search for a specific domain. For example, site:youtube.com or site:.gov.
2. link: obj (site that are linked to obj) nur nach Seiten, die auf die angegebene URL verweisen,
3. filetype: obj spezifiziert den Dateityp obj des gesuchten Dokumentes, und
4. related: obj Search for related sites
Put “related:” in front of a web address you already know. For example, related:time.com.
So sucht etwa link:uni-due.de -site:uni-due.de nach Seiten außerhalb der UDE, die auf die Startseite der Uni verweisen.
Was ist Ranking?
Ranking heisst die Antworten in der Ergebnisliste einer Suchanfrage in einer Rangordnung bringen. Die konkrete Rankingfunktion ist Geschäftsgeheimnis. Aber wichtige Faktoren sind oft:
• Die Suchbegriffe kommen h¨aufig in der Seite vor.
• Die Suchbegriffe kommen in Ankertexten vor.
• Page rank ist die Popularit¨at einer Seite anhand ihrer Verlinkung mit anderen (popul¨aren) Seiten.
• Diversit¨at: Die ersten Antworten soll m¨oglichst viele Aspekte der Anfrage abdecken.
• Nutzer-Klicks auf Antworten werden heute standardm¨aßig alle protokolliert, damit das System lernt, welche Seiten bevorzugt angeklickt werden. Hierbei geht nicht nur die Gesamtheit aller Klicks zur selben Anfrage, sondern auch die Klicks des betreffenden Nutzers bei fruheren Anfragen sowie ggfs. ¨
die Klicks seiner Freunde aus Google+ in die Bewertung einer Seite ein. (Learning to Rank K6)