probleem 8 Flashcards
grote taal modellen (llm)
begrijpen context beter en kunnen mentale toestanden analyseren.
- kunnen psychologische patronen meten in grote tekstbestanden
- stimuli genereren voor experimenten
- simulaties genereren in therapie of onderwijstrainingen
ze werken door gebruik te maken van co-occurrences.
co-occurences
woorden die vaak samen voorkomen in een tekst. het helpt taalmodellen om verbanden tussen woorden te begrijpen.
sterktes van LLM
- contextafhankelijke betekenis: ze begrijpen woorden in hun context
- enorma dataset: LLMs worden getrained op honderden miljarden uitingen, waardoor ze subtiele en complexe uitdrukkingen van mentale toestanden kunnen herkennen en repliceren.
transformer
word gebruikt door chatgbt
besteed tegelijkertijd aandacht aan verchillende delen van een tekst.
instruction tuning:
een taalmodel wordt getrained om beter te reageren op specifieke instructies, zodat het antwoorden levert die relevanter ijn voor een bepaalde taak
reinforcement learning
techniek waarbij een model leert door beloningen of straffen te ontvangen voor zijn acties, zodat het over tijd betere beslissingen maakt op basis van de feedback.
beperkingen LLM
- als de broninformatie in de trainingsdata niet accuraat is, kan het llm deze onnauwkeurigheden herhalen. dus als de data die het heeft verwerkt veel stereotypen bevat zal de chat ook die weergeven. het weet niet wat het aan het zeggen is.
fine-tunning
LLM wordt verder getrained met specifieke datasets die relevant zijn voor een bepaalde onderzoeksgebied. kan ervoor zorgen dat een model veel nauwkeuriger presteert binnen een specifiek taak of context.
- voordeel: weinig nieuwe data is nodig om het model aan te passen
- nadeel; vereist veel rekenkracht. verzamelen van kwalitatief hoofstaande data kan moeilijk zijn.
prompt tuning
gebruiker geeft het model aaan wat voor soort antwoorden gewenst zijn. dus de juiste voorbeelden geven aan de model van wat de juiste antwoorden zijn.
- voordeel: kan snel gedaan worden en vereist minder data dan de fine-tuning
- nadelen: minder effectief voor complexe psychologische concepten. kan biases niet verbeteren.
evalueren van de llm
- expert beoordeling: de output van de llm wordt vergeleken met die van menselijke experts. experts beoordelen de tekst op cohorentie, grammatica en relevantie. maar je hebt hierbij wel te maken met de intersubjectieviteit problematiek ( beoordelaars kunnen niet altijd goed inschatten hoe de ontvanger de tekst zal interpreteren)
- impact evaluatie: dit onderzoekt de werkelijke impact van llm teksten op de lezers.
een combinatie van die twee is een goede evaluatie
bias in llm
- representatieve schade: manier waarop groepen worden afgebeeld
- allocatieve schade: betrekking op ongelijke toegang tot middelen of kansen zoals therapie of banen
keystone-datasets
grote taal databases van hoge kwaliteit die psychologische constructen en belangrijke uitkomsten vertegenwoordigen. zodat de llm betere aanbevligen kan doen
nieuwe maatstaven creeere nvoor llms in psychologie
er is een behoefte aan specifieke criteria voor het evaluaren van llms binnen de psychologie, aangezien bestaande maatstaven uit de computerwertenschappen vaak niet geschikt zijn. dit vereist consensus over hoe psychologische constructen gedefinieerd en gemeten moeten worden, waarbij privcy en veiligheid centraal staan.
toegankelijkheid van llms waarborgen
aangezien de ontwikkeling van llms veel middelen kost.moeten academici toegang krijgen tot goedkopere versies en gratis onderzoeks licenties. er is ook behoefte aan meer training in technische vaardigheden zoals programmeertalen om psychologen in staat te stellen effectief met llms te werken
vignette gebasseerde onderzoeken
een vignet= een hypotetische situatie waarin een deelnemen gevraagd wordt te reageren, wat inzichten geeft in hoe de deelnemer redeneert of beslissingen neemt.
- linda-probleem (conjunctie fout); mensen denken dat specifieke omstandigheden waarschijnlijker zijn dan algemene. chat-3 was ook gevoelig voor dit valkuil als mensen
- cab-problem (base rate fallacy); negeren van het basisfrequentie en antwoord basren op getuigenverklaring. CHAT-3 was hierin beter dan mensen
- card selection task: hier gaf CHAT ook de juiste antwoord
- cognitieve reflection test: chat-3 trapt ookin deze fout