Big Data-analyse Flashcards
Wat is Big Data-analyse?
Big Data-analyse verwijst naar het proces van het verzamelen, opslaan en analyseren van grote en complexe datasets om patronen, trends en inzichten te ontdekken die met traditionele methoden moeilijk te detecteren zijn.
Wat zijn de 5 V’s van Big Data?
• Volume: De enorme hoeveelheid gegevens die wordt gegenereerd.
• Velocity: De snelheid waarmee gegevens worden geproduceerd en verwerkt.
• Variety: De diversiteit aan datatypes (gestructureerd, ongestructureerd, semi-gestructureerd).
• Veracity: De betrouwbaarheid en kwaliteit van de gegevens.
• Value: De bruikbare inzichten die uit de gegevens gehaald kunnen worden.
Wat is het verschil tussen gestructureerde, ongestructureerde en semi-gestructureerde data?
• Gestructureerde data: Gegevens in een vaste, georganiseerde vorm (bijv. databases, spreadsheets).
• Ongestructureerde data: Gegevens zonder vaste structuur (bijv. video’s, sociale media-posts, e-mails).
• Semi-gestructureerde data: Gegevens met enige structuur, maar niet volledig (bijv. JSON, XML-bestanden).
Wat zijn enkele veelgebruikte tools voor Big Data-analyse?
• Hadoop: Open-source framework voor gedistribueerde data-opslag en verwerking.
• Spark: Snelle Big Data-verwerkingstool voor real-time analyse.
• SQL & NoSQL: Databasetechnologieën voor gestructureerde en ongestructureerde data.
• Tableau & Power BI: Visualisatietools voor het interpreteren van data.
• Python (Pandas, NumPy) & R: Programmeertalen voor data-analyse en statistiek.
Wat is een datameer (data lake) en hoe verschilt het van een datawarehouse?
• Datameer: Opslagplaats voor rauwe, ongestructureerde of semi-gestructureerde data.
• Datawarehouse: Geoptimaliseerde opslag voor gestructureerde data die al is verwerkt en geanalyseerd.
Wat is machine learning en hoe wordt het gebruikt in Big Data?
Machine learning (ML) is een vorm van kunstmatige intelligentie (AI) waarbij algoritmen leren van data om patronen en voorspellingen te maken. In Big Data wordt ML gebruikt voor:
• Voorspellende analyses (bijv. klantenvoorspellingen in e-commerce).
• Fraudedetectie (bijv. in de financiële sector).
• Gepersonaliseerde aanbevelingen (zoals bij Netflix of Amazon).
Wat is een data science pipeline?
Een data science pipeline is een gestructureerd proces om ruwe data om te zetten in bruikbare inzichten. Stappen:
1. Data verzamelen (uit verschillende bronnen zoals databases en API’s).
2. Data opslaan (in datameren of datawarehouses).
3. Data schoonmaken (verwijderen van ruis en onjuiste waarden).
4. Data analyseren (met statistiek en machine learning).
5. Resultaten visualiseren (met dashboards en grafieken).
Wat is real-time data-analyse en waarom is het belangrijk?
Real-time data-analyse betekent dat gegevens onmiddellijk worden verwerkt en geanalyseerd zodra ze binnenkomen. Dit is cruciaal voor toepassingen zoals:
• Fraudedetectie bij banken.
• Monitoring van verkeersstromen.
• Realtime advertentie-aanpassingen op sociale media.
Wat zijn ethische uitdagingen bij Big Data?
• Privacyproblemen (hoe wordt persoonlijke data verzameld en gebruikt?).
• Bias in algoritmen (kunnen AI-modellen discrimineren?).
• Data-eigendom (wie heeft het recht om data te gebruiken?).
• Transparantie (hoe worden beslissingen op basis van data genomen?).
Wat is datamining en hoe wordt het gebruikt?
Datamining is het proces van het ontdekken van patronen en verbanden in grote datasets met behulp van statistische en machine learning-technieken. Toepassingen:
• Klantsegmentatie in marketing.
• Voorspellen van ziektes in de gezondheidszorg.
• Detecteren van netwerkindringers in cybersecurity.