Introduction/Internet-Suche Flashcards
Was ist die Internet-Suche und nennen Sie ein Beispiel.
Internet-Suche ist eine Funktion (… , und eine Software? die Objekte im Internet sucht?), die heute von vielen Menschen täglich genutzt wird. Das populärste
Beispiel ist die Web-Suche (Objekte = Webseiten), bei der Google und Bing heute in der westlichen Welt quasi unsere Sicht auf
das Web diktieren
Was ist die Intranet-Suche? Nennen Sie ein Beispiel.
Es ist eine Web-basierte Anwendung, bei der die Suche eine Rolle spielt (wie bei Internet-Suche). Es ist die organisiationsinterne Variante der Web-Suche. Z.B.
- Produktsuche bei Internet-Shops,
- Die Suche in Online-Publikationen,
- Suche in Digitale Bibliotheken,
- Multimedia-Suche wie z.B. in Bild-, Video- oder Musikdatenbanken.
Wie unterscheidet sich die Internet-Suche von der Intranet-Suche?
Intranet-Suche heisst organisationsinterne Variante der Web-Suche. Die Web Suche ist die Suche im World Wide Web.
Was sind die Facetten der …[..]..Suche?
- Sprache - monolinguale, crosslinguale oder multilinguale Suche
- Struktur - Feldstruktur (Literatursuche) Graph-Struktur (Verlinkung in der Web-Suche von Dokuementen), oder baumartiger Struktur (XML-dokumenten).
- Medien- IR Methoden können auf Text, Fakten, Bilder, Audiodaten und auf Videos angewendet werden. Bsp: Ähnlichkeitssuche auf Bildern (Gazopa - similar image search)
- Objekte- die Suche nach bestimmten Objketen. Z.b. nach Personen (linkedin?), nach Formen (www.firmenfinde.de)
- Statische/dynamische Inhalte: kommen immer neue Dokumente hinzu? -> dynamische Inhalte (Bsp. Twitter, news.google.de). Ansonsten: statistische Inhalte
Beschreiben die Suche Facette Struktur und geben Sie Beispiele.
Facette Struktur: die Struktur der Suche bestimmt von den Elementen, die gesucht werden:
- Feldstruktur (Felder Struktur) (Bsp. Literatursuche: Title, Autoren, Kurzfassung, …),
- Graph-Struktur (Bsp. Verlinkung in der Web-Suche von Dokumenten),
- Baumartiger Struktur (Bsp. XML-dokumenten).
Welche Rolle spielt die Suchqualität und was ist es?
Ein wichtiges Kriterium bei der Auswahl eines Dienstes ist fur die Benutzer die Suchqualität
??Search Quality -> Precision and Recall.
Hohe Suchqualität heisst hoche Precision und Recall. Man will, dass man in einer Suche alle relevanten Dokumenten und wenige nicht-relevanten Dokumente findet.
Precision- von denen die wir gefunden haben, wie viele waren relevant?
Recall- wie viele von den Relevanten haben wir gefunden?
What is Precision?
Precision- von denen die wir gefunden haben, wie viele waren relevant?
(“Precision gibt den Anteil der relevanten an den gefundenen Dokumenten wieder.”)
p :=|REL ∩ GEF| / |GEF|
Precision ist immer leicht auszurechnen.
Was ist Recall?
Recall- wie viele von den Relevanten haben wir gefunden?
“Recall dagegen bezeichnet den Anteil der relevanten Dokumente, die tats¨achlich gefunden wurden.”
r :=|REL ∩ GEF| / |REL|
Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur
aktuellen Anfrage enth¨alt. Ein System liefert 10 Dokumente, von denen 8 relevant sind.
Was ist Precision und Recall?
Precision: (von denen die wir gefunden haben, wie viele waren relevant? )
= 8/10 = .8
Recall: (wie viele von den Relevanten haben wir gefunden?)
= 8/20 = 0.4
Was ist ein Vorteil von Precision?
Bei Precision muss man nicht wissen, wie viele Dokumente überhaupt relevant sind. Das muss man bei Recall wissen.
Was ist Informationskompetenz?
Informationskompetenz: die Fähigkeit,
sich eine ausreichende Entscheidungsgrundlage zu beschaffen. Sie besteht aus 6 Schritten: (1-3 hier)
1. Aufgabendefinition: Informationbedürfnis identifizieren.
Impliziert: Erkennung vom Bedüfnis
2. Informations-Beschaffungs-Strategien: bestimme alle möglichen Info-Quellen (auch Menschen möglich). Wähle beste Quelle aus.
Impliziert: Nutzer muss Strategien und Quellen kennen.
3. Lokalisierung und Zugriff: Quellen lokalisieren, dann innerhalb der Quelle suchen und Dokumente/Information finden.
Impliziert: Nutzer muss Quelle lokalisieren können und …
Nennen Sie die Schritte 4-6 von Informationskompetenz:
- Benutze die Information: Man schaut gefundene Dokumente etc. an und extrahiert Info.
Impliziert: Nutzer muss in der Lage sein, …. - Synthese (Organisiere Info aus verschiedenen Quellen.)
Impliziert: …. - Bewertung: Abschliesend Produkt beurteilen - Effektivität Effizienz der Suche beurteilen. HERAUSFORDERUNG: Nutzer muss in der Lage sein, Information kritisch zu beurteilen.
Was sind die Benachbarter Kompetenzen zu Informatskompentenz?
Bibliothekskompetenz bezieht sich auf die F¨ahigkeit, eine Bibliothek (physisch oder digital) zu nutzen
• Computerkompetenz betrifft die generelle Nutzung eines Computers.
• Digitalkompetenz ist die F¨ahigkeit, uber Computer dargestellte Information unterschiedlicher For- ¨
mate verstehen und anwenden zu k¨onnen.
• Internet-Kompetenz bezieht sich auf die Nutzung des Internet allgemein.
• Suchkompetenz ist die F¨ahigkeit, effektiv in Informationssystemen zu suchen (s.u.).
• Kommunikationskompetenz betrifft die Kommunikation mit anderen Personen auf allen m¨oglichen
Kan¨alen.
• Lesekompetenz ist die grundlegende F¨ahigkeit, Information aus Texten zu extrahieren.
• Medienkompetenz bezieht sich auf den Umgang mit allen m¨oglichen Medien – vom einfachen Text
bis hin zur Navigation in virtuellen Welten.
• Schreibkompetenz ist schließlich die F¨ahigkeit, Gedanken niederzuschreiben
Woraus besteht eine Web-Suchmaschine?
- Crawler -sammelt Dokumente
- Parser/Indexer - Dokument in Wörter zerlegen, dann ling. Alg angewandt und gewichtet.
indexiert“) - Datenbank - Ergebnisse von Parser speichern
- Searcher - über Browser an Such-Interface zugreifen.
Was macht der Crawler und Parser/Indexer in einer Web-Suchmaschine?
Crawler:
Diese Komponente sammelt die Dokumente aus dem Web auf. Hierzu startet der Crawler mit einer Liste von Web-Servern, deren Dokumente zuerst abgefragt werden, und von wo aus dann Links zu neuen Quellen verfolgt werden.
Parser:
Extrahiert Schlüsselwörter aus Dokument, der reine Text, …in einzelne W¨orter zerlegt, dann
linguistische Algorithmen und Gewichtungsmethoden angewandt (”
indexiert“)
Was ist ‘Suchbarkeit’?
Welche Dokumente sind potenziell überhaupt durch die Suchmaschine zu finden.