Instuderingsfrågor Flashcards
Newell & Simon var ivriga förespråkare av “the physical symbol system hypothesis”. Vad innebar detta?
“The physical symbol system hypothesis” tar fysiska mönster/symboler och kombinerar dom till strukturer och manipulerar dem till att producera nyare uttryck. PSSH, physical symbol system hypothesis, är i en ställning som implicerar att både mänskligt tänkande är en slags symbol manipulation då symbolsystem är nödvändiga för intelligens och att denna intelligens kan återskapas inom datorer.
Exempel på fysiska symbolsystem är formell logik som “och” “inte” eller algebra där “+” “-” som möjliggör för manipulation av en beräkning men samtidigt behåller dess sanning.
I slutet av 60‐talet skapade Terry Winograd systemet SHRDLU. På vilket sätt var det ett genombrott, och vilka begränsningar hade det?
SHRDLU var skapat i slutet av 1960-talet och var ett av de första exemplet på datorsystem för naturligt språkbehandling (NLP) och artificiell intelligens (AI). Programmet fungerade genom att en användare håller en konversation med datorerna, rör på objekt och namnger objekt inom en virtuell värld med objekt av olika former.
- SHRDLU var ett av de första systemen som gjorde det möjligt för användare att interagera med datorn genom naturligt språk istället för programmeringsspråk eller kommandon. Användaren kunde ge instruktioner på engelska för att manipulera objekt i en virtuell värld.
- Semantisk förståelse: den hade en semantisk förståelse genom att kunna svara på frågor om objekt i den virtuella världen. Förstå objekten, egenskaperna och handlingar som den kan agera med.
- Kontextuell förståelse som kommer från tidigare instruktioner och går att återanvändas. Exempelvis: först så benämner du former: “grön kon”, “blå boll”, “blå trekant” och sedan så går det att använda detta när du säger: “lägg grön kon ovanpå blå trekant”.
SHRDLU har flera begränsningar:
- Begränsad domän: den fungerade bara inom sin specifika värld med klossarna och objekt. Dess förmåga att förstå och hantera naturligt språk var därför begränsat till den specifika domänen och INTE andra områden.
- Begränsad semantisk förståelse: den förstod inte på en djupare nivå av naturligt språk.
- Ingen världskontext.
Beskriv orsakerna till “AI‐vintern” på 70‐talet:
Anledningen till att det blev en stor “AI-vinter” under 70-talet har att göra med att intresset för AI helt enkelt minskade. Intresset minskar efter tidigare årtiondens överdrivna förväntningar av vad AI kan utvecklas för att bli. Tekniska begränsningar som bristfälliga datorer och brister på de första teknikerna av AI gjorde det svårt för framgång och innovation att ske. En ytterligare orsak är faktumet att det dessutom fanns en stor mängd med kritik från tidens forskare.
För agenten som ”Bjuder på en vara på en auktion” utveckla en PEAS (Performance meassure, Environment, Actuators, Sensors) beskrivning av arbetsmiljön.
Performance Measure står för att analysera och mäta hur framgångsrikt den lyckas vinna på varor under auktionen. Algoritmen ska försöka att köpa varor för så lite kostnad som möjligt.
Miljön: en auktionsmiljön där det finns andra aktörer som tävlar för att köpa varor. Det är en miljö som tillåter för budgivning, lägga extra kostnad och få ut resultatet.
Actuators är det som gör att programmet kan agera och utföra det som den är menad att göra som att:
Skicka eller justera budagenten kan lämna bud på varor genom att skicka budbelopp till auktionsplattformen.
Sensorer används för att kunna uppfatta och förstå auktionsmiljön samt hur dess egna handlingar påverkar denna miljön. Det här tar fram auktionsinformation, budaktivitet och resultat.
Beskriv ”Simple reflex agent”:
En simpel reflex agent fungerar genom att utföra handlingar baserade på en nuvarande situation. Det finns inget intelligent med dessa agenter. Modellbaserade agenter begår gärningar baserat på historisk data och kan agera utifrån tidigare upplevelser.
Förklara följande miljö (environment) för en agent: Accessible, Deterministic, Episodic
Accessible (tillgängliga) miljöer är när en agentens sensor kan skapa tillåtelse till den fullständiga informationen inom miljön för att kunna göra ett beslut. Dessa miljöer är bra för agenten eftersom att de inte måste hålla koll på potentiella förändringar och lösenord för att ta ett beslut: all information finns redan eller kommer att finnas.
Deterministic (deterministiska) miljöer är det eftersom att nästa stadium är förutbestämt av informationen och tillståndet av miljön och agerandet av agenten. I tillgängliga och deterministiska miljöer så finns det inte någon osäkerhet. Agenten kan agera.
Episodic (episodisk) miljö innebär att det som kommer att ske nu kommer att inte påverkas av det som tidigare har skett. Dessa agenter behöver inte en plan för framtida rörelser.
Statiska miljöer ändrar sig inte medan agenten håller på och tänker. Agenten behöver inte observera världen medan den tar beslut.
Diskreta miljöer är diskreta medan ett antal distinkta perceptioner och agerande är begränsade.
What is the decision support system, an expert system and a knowledge‐based system? What are the differences between these systems?
DSS, ES och KBS är datorbaserade system som är designade för att kunna hjälpa människor i att ta beslut eller för att lösa komplexa problem.
DSS är ett system som ger verktyg och information för att kunna hjälpa användare att ta informerade beslut. Det kombinerar data, modeller och analytiska verktyg för att stödja de beslutsfattande processer. DSS används ofta inom ekonomi och förvaltning för att kunna ta olika beslut baserat på det som tidigare hittats.
ES är ett typ av AI system som är designat för att mimera beslutstagandet som en mänsklig expert inom ett område. Den använder sig av kunskap från mänsklig expertis för att kunna använda detta för att ge råd eller lösningar för användares problem. Dessa experter är mycket viktiga och användbara inom branscher där det inte finns en större mängd med experter som är tillgängliga på plats eller hela tiden.
KBS är en bredare form av ES som “låtsas” var ett expertsystem. Det fungerar genom att använda sig av en databas med kunskap för att kunna ge intelligenta lösningar eller stöd för att lösa komplexa problem.
Vad menas med avvägningen exploit‐explore i reinforcement learning?
Avvägningen “exploit-explore” är en viktig konceptuell utmaning inom förstärkande inlärning (reinforcement learning) och beskriver balansen mellan att utnyttja befintlig kunskap (exploit) för att maximera belöningar och att utforska okända alternativ (explore) för att upptäcka potentiellt bättre strategier. Det är en grundläggande problematik när en agent måste fatta beslut för att maximera dess belöningar över tid.
- Exploit (Utnyttja): Att exploatera innebär att agera på det sätt som hittills har visat sig vara mest lönsamt enligt agentens nuvarande kunskap. Detta innebär att följa den bästa strategin som agenten redan känner till för att uppnå högsta möjliga belöning i det aktuella tillståndet.
- Explore (Utforska): Att utforska innebär att testa nya och okända åtgärder för att samla mer information om systemet och dess potentiellt bästa strategier. Utforskning är nödvändig för att upptäcka alternativ som kan vara ännu mer lönsamma än de som agenter redan känner till.
Balansen mellan exploit och exploration är avgörande för framgången i förstärkande inlärning. Om en agent endast fokuserar på att utnyttja sin nuvarande kunskap (exploatera), kan den fastna i suboptimala lösningar och missa möjligheter till bättre belöningar. Å andra sidan, om agenten bara utforskar (utforskar), kan den aldrig dra nytta av den kunskap den redan har och kanske inte når optimala belöningar.
För att hantera denna utmaning utvecklar forskare strategier och algoritmer som balanserar exploatering och utforskning. En vanlig metod är att använda epsilon-greedy-algoritmer där agenter med en viss sannolikhet väljer att utforska nya åtgärder och med högre sannolikhet väljer att utnyttja bästa kända åtgärder. Andra metoder inkluderar Upper Confidence Bound (UCB) och Thompson Sampling.
Sammanfattningsvis är “exploit-explore”-problemet en central fråga inom förstärkande inlärning, där en balans mellan att använda befintlig kunskap och utforska nya alternativ är nödvändig för att optimera belöningar på lång sikt.