11 Web Data Mining Flashcards
Varför utförs Web Data Mining och vad är det?
- Internet har mer information än något annat ställe
2. Handlar om att utvinna data och finna mönster i data från webben
Vilka tre typer av Web Data Mining finns?
Web Content Mining
- innehåll av webbsidor/mail
Web Structure Mining
- hyperlänkar mellan dokument
Web Usage Mining
- användardata, klickströmmar etc
Vad innebär Web Content Mining?
Hitta mönster i innehållet av webbsidor, e-mail etc
- foton, illustrationer, videor, tal etc
Störst fokus på text
- ofta väldigt dålig kvalitet
–> handlar om Text Mining
På vilka två sätt kan man hitta mönster i text (text mining)? (1+2)
Genom maskininlärning
Unsupervised learning
- klustring (inga fördefinierade kategorier)
Supervised learning
– vi lär oss genom förkategoriserade kategorier med exempel (postiv/negativ recension)
Vad innebär “named entities” kopplat till text?
Namn på personer, företag, geografiska platser etc
Vad kan vi använda de mönstren som hittas genom Web Content Mining? (4)
Riktad marknadsföring
- vilken sida?
Läkemedelsinteraktioner
- kolla forum där folk pratar om dem
Opinion mining dokumentnivå
- vem är mest populära presidentkandidaten?
- attityd mot våra/konkurrenters produkter?
Opinion mining meningsnivå
- gå in på delar av texten
- produkts fördel/nackdel i en och samma kommentar
Vad innebär Web Structure Mining?
Strukturer mellan dokument
- bygger på teorier om social nätverksanalys
- sociala entiteter (aktörer) och deras interaktioner och relationer
Vi kan genom mining av dessa hitta roller, positioner
- ex prestigefyllda webbsidor
Varför är Web Structure Mining användbart?
Webben är en social aktör - varje sida är en social aktör
- varje hyperlink är en relation (tie)
Vad är ties och vilka typer finns? (1+2)
Hyperlänkar (relationer)
Ties sent
- utlänkar
Ties received
- inlänkar
Hur bedöms en aktörs prestige inom Web Structure Mining?
Räkna inlänkar:
- varje inlänk är en röst
- inkommande länkar från andra prestigefyllda sidor väger högra (spamfilter)
Vad används Web Structure Mining till? (4)
Ranka webbsidor (Google sökmotor)
Räkna ut hur ofta man behöver besöka en hemsida för indexering
Gruppera användare i sociala nätverk, rekommendera vänner etc
Analysera ett företags struktur genom att titta på de interna mailkonversationerna
Vad innebär Web Usage Mining?
Hur dokument faktiskt används - hur användare agerar med dessa
Försöker upptäcka mönster i tex klickströmmar
MÅL:
Hitta beteendemönster och skapa användargrupper baserat på detta
Vilka källor används för att utföra till Web Usage Mining? (3)
Webbserver-loggar
- på hemsidor
Applikationsserver-loggar
- inne i program
Sökfrågor
- när användare söker data
Vilka typiska fält används i vid Web Usage Mining? (4)
Tid
Datum
IP-adress
Cookies (tidigare besökta sidor etc)
osv
Vad används Web Usage Mining till? (5)
Marknadsföring
Personaliserat innehåll
Online-rekommendationer
Förbättra webbplatsers struktur
Utvärdera marknadsföringskampanjer