Introduction/Internet-Suche Flashcards

1
Q

Was ist die Internet-Suche und nennen Sie ein Beispiel.

A

Internet-Suche ist eine Funktion (… , und eine Software? die Objekte im Internet sucht?), die heute von vielen Menschen täglich genutzt wird. Das populärste
Beispiel ist die Web-Suche (Objekte = Webseiten), bei der Google und Bing heute in der westlichen Welt quasi unsere Sicht auf
das Web diktieren

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Was ist die Intranet-Suche? Nennen Sie ein Beispiel.

A

Es ist eine Web-basierte Anwendung, bei der die Suche eine Rolle spielt (wie bei Internet-Suche). Es ist die organisiationsinterne Variante der Web-Suche. Z.B.

  1. Produktsuche bei Internet-Shops,
  2. Die Suche in Online-Publikationen,
  3. Suche in Digitale Bibliotheken,
  4. Multimedia-Suche wie z.B. in Bild-, Video- oder Musikdatenbanken.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Wie unterscheidet sich die Internet-Suche von der Intranet-Suche?

A

Intranet-Suche heisst organisationsinterne Variante der Web-Suche. Die Web Suche ist die Suche im World Wide Web.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was sind die Facetten der …[..]..Suche?

A
  1. Sprache - monolinguale, crosslinguale oder multilinguale Suche
  2. Struktur - Feldstruktur (Literatursuche) Graph-Struktur (Verlinkung in der Web-Suche von Dokuementen), oder baumartiger Struktur (XML-dokumenten).
  3. Medien- IR Methoden können auf Text, Fakten, Bilder, Audiodaten und auf Videos angewendet werden. Bsp: Ähnlichkeitssuche auf Bildern (Gazopa - similar image search)
  4. Objekte- die Suche nach bestimmten Objketen. Z.b. nach Personen (linkedin?), nach Formen (www.firmenfinde.de)
  5. Statische/dynamische Inhalte: kommen immer neue Dokumente hinzu? -> dynamische Inhalte (Bsp. Twitter, news.google.de). Ansonsten: statistische Inhalte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Beschreiben die Suche Facette Struktur und geben Sie Beispiele.

A

Facette Struktur: die Struktur der Suche bestimmt von den Elementen, die gesucht werden:

  1. Feldstruktur (Felder Struktur) (Bsp. Literatursuche: Title, Autoren, Kurzfassung, …),
  2. Graph-Struktur (Bsp. Verlinkung in der Web-Suche von Dokumenten),
  3. Baumartiger Struktur (Bsp. XML-dokumenten).
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Welche Rolle spielt die Suchqualität und was ist es?

A

Ein wichtiges Kriterium bei der Auswahl eines Dienstes ist fur die Benutzer die Suchqualität
??Search Quality -> Precision and Recall.
Hohe Suchqualität heisst hoche Precision und Recall. Man will, dass man in einer Suche alle relevanten Dokumenten und wenige nicht-relevanten Dokumente findet.

Precision- von denen die wir gefunden haben, wie viele waren relevant?
Recall- wie viele von den Relevanten haben wir gefunden?

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

What is Precision?

A

Precision- von denen die wir gefunden haben, wie viele waren relevant?

(“Precision gibt den Anteil der relevanten an den gefundenen Dokumenten wieder.”)
p :=|REL ∩ GEF| / |GEF|
Precision ist immer leicht auszurechnen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist Recall?

A

Recall- wie viele von den Relevanten haben wir gefunden?

“Recall dagegen bezeichnet den Anteil der relevanten Dokumente, die tats¨achlich gefunden wurden.”
r :=|REL ∩ GEF| / |REL|

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Als Beispiel nehmen wir an, dass eine Kollektion von 1000 Dokumenten 20 relevante Dokumente zur
aktuellen Anfrage enth¨alt. Ein System liefert 10 Dokumente, von denen 8 relevant sind.
Was ist Precision und Recall?

A

Precision: (von denen die wir gefunden haben, wie viele waren relevant? )
= 8/10 = .8

Recall: (wie viele von den Relevanten haben wir gefunden?)
= 8/20 = 0.4

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Was ist ein Vorteil von Precision?

A

Bei Precision muss man nicht wissen, wie viele Dokumente überhaupt relevant sind. Das muss man bei Recall wissen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist Informationskompetenz?

A

Informationskompetenz: die Fähigkeit,
sich eine ausreichende Entscheidungsgrundlage zu beschaffen. Sie besteht aus 6 Schritten: (1-3 hier)
1. Aufgabendefinition: Informationbedürfnis identifizieren.
Impliziert: Erkennung vom Bedüfnis
2. Informations-Beschaffungs-Strategien: bestimme alle möglichen Info-Quellen (auch Menschen möglich). Wähle beste Quelle aus.
Impliziert: Nutzer muss Strategien und Quellen kennen.
3. Lokalisierung und Zugriff: Quellen lokalisieren, dann innerhalb der Quelle suchen und Dokumente/Information finden.
Impliziert: Nutzer muss Quelle lokalisieren können und …

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Nennen Sie die Schritte 4-6 von Informationskompetenz:

A
  1. Benutze die Information: Man schaut gefundene Dokumente etc. an und extrahiert Info.
    Impliziert: Nutzer muss in der Lage sein, ….
  2. Synthese (Organisiere Info aus verschiedenen Quellen.)
    Impliziert: ….
  3. Bewertung: Abschliesend Produkt beurteilen - Effektivität Effizienz der Suche beurteilen. HERAUSFORDERUNG: Nutzer muss in der Lage sein, Information kritisch zu beurteilen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Was sind die Benachbarter Kompetenzen zu Informatskompentenz?

A

Bibliothekskompetenz bezieht sich auf die F¨ahigkeit, eine Bibliothek (physisch oder digital) zu nutzen
• Computerkompetenz betrifft die generelle Nutzung eines Computers.
• Digitalkompetenz ist die F¨ahigkeit, uber Computer dargestellte Information unterschiedlicher For- ¨
mate verstehen und anwenden zu k¨onnen.
• Internet-Kompetenz bezieht sich auf die Nutzung des Internet allgemein.
• Suchkompetenz ist die F¨ahigkeit, effektiv in Informationssystemen zu suchen (s.u.).
• Kommunikationskompetenz betrifft die Kommunikation mit anderen Personen auf allen m¨oglichen
Kan¨alen.
• Lesekompetenz ist die grundlegende F¨ahigkeit, Information aus Texten zu extrahieren.
• Medienkompetenz bezieht sich auf den Umgang mit allen m¨oglichen Medien – vom einfachen Text
bis hin zur Navigation in virtuellen Welten.
• Schreibkompetenz ist schließlich die F¨ahigkeit, Gedanken niederzuschreiben

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Woraus besteht eine Web-Suchmaschine?

A
  1. Crawler -sammelt Dokumente
  2. Parser/Indexer - Dokument in Wörter zerlegen, dann ling. Alg angewandt und gewichtet.
    indexiert“)
  3. Datenbank - Ergebnisse von Parser speichern
  4. Searcher - über Browser an Such-Interface zugreifen.
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was macht der Crawler und Parser/Indexer in einer Web-Suchmaschine?

A

Crawler:
Diese Komponente sammelt die Dokumente aus dem Web auf. Hierzu startet der Crawler mit einer Liste von Web-Servern, deren Dokumente zuerst abgefragt werden, und von wo aus dann Links zu neuen Quellen verfolgt werden.
Parser:
Extrahiert Schlüsselwörter aus Dokument, der reine Text, …in einzelne W¨orter zerlegt, dann
linguistische Algorithmen und Gewichtungsmethoden angewandt (”
indexiert“)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Was ist ‘Suchbarkeit’?

A

Welche Dokumente sind potenziell überhaupt durch die Suchmaschine zu finden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Welche Voraussetzung muss ein Dokument erfüllen, um eine hohe ‘Suchbarkeit’ zu können?

A
  1. Die Suchmaschine muss Zugriff auf das Dokument haben. Das Dokument muss öffentlich zugänglich sein. Das Dokument muss durch Verlinkung erreichbar sein, und es robots.txt sollte Zugang erlauben.
  2. Die Webseite soll aktuell sein.
  3. Das Dokument sollte in HTML oder bekanntem Format sein.
  4. Die Sprache der Website muss passen.
18
Q

Was sind linguistische Funktionen?

A

(typical search functions in the user’s GUI when they search for a document.) Sie sind übliche Suchfunktionen für den Benutzer bei der Suche nach einem Dokument in der Benutzeroberfläche, basiered auf Zweichenkettenvergleich.
1. Wortnormalisierung - verschiedene Schreibweisen normalisieren
2. Grundformreduktion - linguistische Grundform finden: Bsp: Häuser – Hauses – Hause – Haus
3. Phrasen - Abstandsuche in einer Phrase - Bsp mit ‘*”: “information retrieval”, “retrieval * information” (?)
4. Komposita: trennen von zusammengesetze Befriffe (?)
5. Synonyme - nach Synonymen suchen
mit ‘∼’: Beispiel: Handy Mobiltelefon Smartphone <=> ∼handy

19
Q

Was ist die Anfragesprache, wann spielt es eine Rolle/wann ist es hilfreich? Welche Anfragesprache-Operatoren bietet Google an?

A

Anfragesprache: man benutzt die Anfragesprache umkomlexere Anfragen in der Such- Benutzeroberfläche. zu formulieren.

Google Operator:

  1. boolesche Operatoren, UND ODER, -
  2. Zahlenbereiche: 100..200 Euro
  3. Facetten: Einschränkung nach Google Facetten (Bilder, Maps, .., Ort, Sprache ..)
  4. Feld-Prädikate: inurl:, intext:, …
  5. URL- Prädikate: link:uni-due.de - site:uni-due
20
Q

Was ist boolesche Operatoren

A

Eine der Google’s Operatoren für Anfragesprache:
1. Boolesche Operatoren: Implizit: AND zw. alle Begriffe. ‘OR’ kann man benutzen, wenn AND nicht gewünscht ist. und ‘-‘ ist Negation

21
Q

Was sind Facetten als Operator der Anfragesprache?

A

Einer Google’s Operatoren für Anfragesprache:

3. Facetten: Erlauben die Einschränkung der Antwortmenge durch Objekttyp, Standort, Sprache oder Zeitraum (????)

22
Q

Was ist ein Feldprädikat?

A

Beschränkt die Suche auf diese Felder (url, anchor, text …)
4. Feld-Prädikate. Bsp inurl: , inanchor:, intitle:, intext: ..Beschränken die Suche des betreffenden Wortes auf Felder wie die URL usw. ‘all’ -> alle Suchterme müssen Bedingung erfüllen.

23
Q

Was ist ein URL-Prädikat?

A

Einer Google’s Operatoren für Anfragesprache:
Bezieht sich auf Verlinkung.
1. “site:”obj : Search for a specific domain. For example, site:youtube.com or site:.gov.
2. link: obj (site that are linked to obj) nur nach Seiten, die auf die angegebene URL verweisen,
3. filetype: obj spezifiziert den Dateityp obj des gesuchten Dokumentes, und
4. related: obj Search for related sites
Put “related:” in front of a web address you already know. For example, related:time.com.

So sucht etwa link:uni-due.de -site:uni-due.de nach Seiten außerhalb der UDE, die auf die Startseite der Uni verweisen.

24
Q

Was ist Ranking?

A

Ranking heisst die Antworten in der Ergebnisliste einer Suchanfrage in einer Rangordnung bringen. Die konkrete Rankingfunktion ist Geschäftsgeheimnis. Aber wichtige Faktoren sind oft:
• Die Suchbegriffe kommen h¨aufig in der Seite vor.
• Die Suchbegriffe kommen in Ankertexten vor.
• Page rank ist die Popularit¨at einer Seite anhand ihrer Verlinkung mit anderen (popul¨aren) Seiten.
• Diversit¨at: Die ersten Antworten soll m¨oglichst viele Aspekte der Anfrage abdecken.
• Nutzer-Klicks auf Antworten werden heute standardm¨aßig alle protokolliert, damit das System lernt, welche Seiten bevorzugt angeklickt werden. Hierbei geht nicht nur die Gesamtheit aller Klicks zur selben Anfrage, sondern auch die Klicks des betreffenden Nutzers bei fruheren Anfragen sowie ggfs. ¨
die Klicks seiner Freunde aus Google+ in die Bewertung einer Seite ein. (Learning to Rank K6)

25
Q

Was ist Search Engine Optimization?

A

Optimierung von Webseiten, so dass diese oben in der Trefferliste erscheinen

26
Q

Was sind Such-Taktiken?

A

Taktiken bezeichnen einzelne
Aktionen, die die Suche vorantreiben. Es gibt 1. Monitoring Taktiken, - monitor results, note changes in 2-5 and if successful
2. Strukturelle Taktiken -Nutze Facetten um Suche einzuschränken.
3. Suchformulierung, reformuliere Suche, um bessere Ergebnisse zu bekommen
4. Term-Taktiken, beziehen sich auf die Auswahl und die Variation der Suchterme
5. Ideen-Taktiken: consider other search Possiblities and variations of previous searches

27
Q

Wie unterscheidet sich die Internet-Suche von den klassischen Datenbanksystemen?

A

Datenbanksystemen verwalten strukturierte Daten. Aber in der Internet-Suche:

  1. Die Formulierung der Anfrage ist problematisch
  2. passende Antworteten werden nicht sofort gefunden. Nutzer muss Anfrage anpassen
  3. Es gibt eine Rangordnung von Antworten mit absteigender Relevanz für den Benutzer
  4. Die Repräsentation des Dokumenten-Inhalts ist teilweise inadäquat.
28
Q

Was ist Vagtheit in IR?

A

Benutzer kann seinen Informationswunsch nicht pr¨azise spezifizieren

  • vage Anfragebedingungen
  • iterative Frageformulierung
29
Q

Was ist Unsicherheit in IR?

A

System besitzt unsicheres (unzureichendes) Wissen über den Inhalt der verwalteten Objekte ¨

  • ( fehlerhafte Antworten) i.e. Nicht-relevante Dokumente als relevant in Ergebnisliste
  • ( fehlende Antworten) i.e. Fehlende relevante Dokumente
30
Q

Ein Dokument enthält den Text: ““Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsansätze verfolgen.“
1. Gibt es einen syntaktischen Match zu ‘Forschungsansatz’?

A

Nein, kein syntaktischer Match weil die Zeichenkette ‘ Forschungsansatz’ nicht existiert.

31
Q

Ein Dokument enthält den Text: ““Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsans¨atze verfolgen.“
1. Gibt es einen semantisches Match zu ‘Forschungsschwerpunkt’?

A

Ja- match. Die Bedeutung des Dokumentes passt zu Forschungsschwerpunkt.

32
Q

Ein Dokument enthält den Text: ““Willkommen beim Fachgebiet Informationssysteme. Schwerpunkte unserer Arbeit sind Information Retrieval, Digitale Bibliotheken und Web-basierte Informationssysteme, wobei wir insbesondere Nutzer-orientierte Forschungsans¨atze verfolgen.“
1. Was ist die Pragmatik des Dokumentes

A

D.h. Wofür wird das Dokument benutzt? - ’potenzielle Kooperationspartner fur Entwicklung multimedialer Informationssysteme’

33
Q

Was ist die Suche nach syntaktischen Inhalt?

Gib ein Beispiel.

A
  1. Syntax - Dokument ist Folge von Symbolen (z.B. Zeichenkette in Texte, Farbe, Textur, Kontor in Bilder) ZB. Suche nach Fisch durch Konturen in Bilder
34
Q

Was ist die Suche nach semantischen Inhalt? Gib ein Beispiel.

A
  1. Semantik - beschäftigt sich mit der Bedeutung eines Dokumentes; (z.B. Bild enthält Klassen von Objekten wie Autos). Bsp Suche nach Fisch auf Basis von ‘Fisch’ in Dateinamen liefert unterschiedliche bilder mit Bedeutung Fisch.
35
Q

Was ist die Suche nach pragmatischen Inhalt? Beispiel?

A
  1. Pragmatik - beschäftigt sich mit der Nutzung eines Dokumentes für einen bestimmten Zweck. Z.B. Ein Bild von Stau kann kann benutzt werden, um A40-Ausbauplänge zu kritisieren. (Subjektive Nutzung)?
36
Q

Was ist der Unterschied zwischen Daten, Information und Wissen?

A

(skript 11):
Daten sind eine Sammlung von Werten ohne Semantik.

Information heisst Daten mit Semantik.

Wissen ist die Teilmenge von Information, die von jemandem in einer konkreten Situation zur Lösung von Problemen benötigt wird. z.B. für eine Entscheidung

37
Q

Wie unterschiedet sich Repräsentation und Beschreibung von einem Objekt/Dokumenttext in der Datenbasis?
Benutzten Sie das Beispiel:

“Experiments with Indexing Methods. The analysis of 25 indexing algorithms has not produced consistent retrieval performance. The best indexing technique for retrieving documents is not known.”

A

Die Repräsentation ist die Formulierung von einem Text-Dokument oder Text-Suche in ihrer linguistischen Stammform und Eliminierung von Stoppwörten. ->
1. Textdokument: (experiment, index, method, analys, index, algorithm, produc, consistent, retriev, perform, best, index,
techni, retriev, document, know),
2. Textsuche: gleich ohne Komma

Die Beschreibung ist eine Term-Multimenge und kann durch Konjunktion zugrundegelegt werden. ->
1. Textdokument: {(experiment,1), (index,3), (method, 1), (analys,1), (algorithm,1), (produc,1), (consistent,1), (retriev,1),
(perform,1), (best,1), (techni,1), (retriev,1), (document,1), (know,1)}
2. Textsuche: experiement UND index UND …

38
Q

Was sind typische IR- Anwendungen? Nennen Sie ein Beispiel pro Anwendung.

A

ˆ Web-Suchmaschinen - z.B. Google, Yahoo
ˆ Web-Kataloge - Open Directory Project
ˆ Digitale Bibliotheken - Springer Online
ˆ Suche in Nachrichten-, Mail-, News-Archiven
ˆ Suche in Online-Dokumentationen - Wikipedia
ˆ Suche in Bildarchiven - Flickr, Google Image

39
Q

Wählen Sie eine IR-Anwendung aus und beschreiben Sie , was die Dokumente oder Informationsobjekte in dem jeweiligen System sind. a. Was für Eigenschaften besitzen diese? b. Bzg. welcher dieser Eigenschaften können Anfragen formuliert werden?

A

Bsp: Digitale Bilbiotheken: Bsp ACM
Dokumente: Bücher, Artikel, Paper, ..
Eigenschaften: Titel, Author, ISBN, Thema, Verlag, ….

Bsp: Web-Suchmaschine: Google
Dokumente: Webseiten
Eigenschaften: Text, Titel, URL, Meta-Info, …,
Anfragen: (Text? )Worte, Wortgruppen, Sprache, Datum, ..

Bsp: Online Dokumentationen: Wikipedia
Dokumente: Artikel, Namensraum
Eigenschaften: Titel, Text, (?)
Anfragen; nach Titel, Text, nach Semantik, (?) Worte, Wortgruppen

40
Q

Beschreiben Sie Information Retrieval.

A

IR besch¨aftigt sich mit der Informationssuche in wenig strukturierten Datenbeständen (z.B. in Texten und Multimediadaten), wobei die Vagheit des Informationsbedurfnisses und die unsichere Repräsentation des Inhalts charakteristisch sind.