ChatGPT slaagt voor Turingtest


ChatGPT slaagt opnieuw voor Turingtest: de chatbot is zelfs een beter mens dan jij
Scientias, 04-03-2024, door Jeanette Kras
Vraaggesprek met professor Qiaozhu Mei van de University of Michigan

Is het een mens of is het een robot? Met de nieuwste ChatGPT-4 is dat onmogelijk vast te stellen. Sterker nog, de chatbot is op sommige punten een beter 'mens' dan de mens zelf: in tests bleek hij betrouwbaarder en altruïstischer dan degenen, die hij tegenover zich had.
De onderzoekers vroegen ChatGPT om een psychologische vragenlijst in te vullen en interactieve spelletjes te spelen, waarbij onder meer zijn eerlijkheid, altruïsme en betrouwbaarheid op de proef werden gesteld. De beslissingen van de chatbot werden vergeleken met die van bijna 110.000 mensen uit meer dan vijftig landen.

Een pleaser

Statistisch gezien was ChatGPT niet van mensen te onderscheiden en de chatbot was ook perfect in staat om menselijke reacties te spiegelen. Zo werd hij guller als hem werd verteld dat er iemand toekeek en paste de chatbot zijn gedrag aan als hij een andere rol kreeg in het spel. ChatGPT slaagde dus met vlag en wimpel voor de Turingtest. En deed het zelfs beter dan mensen als het ging om samenwerking en altruïsme. Het maakt de chatbot geschikt voor onderhandelingen, conflictbemiddeling, klantenservice en de zorg, denken de onderzoekers.

De Turingtest
De Turingtest, bedacht door Alan Turing in 1936, moet de vraag beantwoorden of een machine menselijke intelligentie kan laten zien. Daarvoor spelen een man en een vrouw het zogenoemde imitatiespel. De man moet zich voordoen als vrouw. Een derde persoon, de ondervrager, moet achterhalen wie de echte vrouw is en wie de bedrieger. Vervolgens neemt een computer de rol van de man over. Als het voor de ondervrager niet eenvoudiger wordt om de bedrieger te herkennen, is de computer geslaagd voor de Turingtest. Het is een belangrijke graadmeter om de kwaliteit van AI te bepalen.

De big five

Onderzoeker Qiaozhu Mei van de University of Michigan legt aan Scientias.nl uit hoe hij ChatGPT het vuur aan de schenen legde. "We lieten hem de standaardvragen beantwoorden van de Big Five-persoonlijkheidstest. Die bestaat uit vijftig stellingen waar ChatGPT antwoord op moest geven op een schaal van 1 tot 5, van helemaal oneens tot helemaal eens. Daaruit kwam zijn persoonlijkheid naar voren op vijf dimensies: openheid, consciëntieusheid, extraversie, vriendelijkheid en neuroticiteit."

Dictator en bankier

Vervolgens moest ChatGPT een paar spelletjes spelen. "Zo deed hij de Dictator-game. Daarbij kreeg hij 100 dollar en werd hem in stilte gevraagd hoeveel hij aan een menselijke speler zou geven. Aangezien medespelers niets te weten komen, besluit een groot deel van de menselijke spelers normaal gesproken om niets weg te geven. Maar ChatGPT-4 wilde altijd 50 dollar bieden, wat de chatbot een eerlijke verdeling vond. ChatGPT-3 had een meer variabele strategie, die neerkwam op een bedrag van gemiddeld 30 dollar voor de andere speler, wat nog steeds meer is dan wat mensen gemiddeld geven," aldus de Amerikaanse wetenschapper.
Maar dat was nog niet alles. "In een ander spel, de Trust-game speelt ChatGPT een investeerder die 0 tot 100 dollar investeert bij een bankier. Dat bedrag wordt dan door de bankier verdrievoudigd. Maar die besluit in stilte hoeveel hij zelf houdt en hoeveel hij teruggeeft aan de investeerder. Daarom zal de investeerder meer investeren als hij meer vertrouwen heeft in de bankier. ChatGPT-4 had relatief veel vertrouwen in de bankier, namelijk meer dan ChatGPT-3 en meer dan de menselijke spelers. De moderne chatbot vertrouwde dus meer geld toe aan de menselijke bankier dan mensen zelf," legt onderzoeker Qiaozhu Mei uit.

Best te vertrouwen

De vraag is: hoe leert ChatGPT al dit zo typisch menselijke gedrag?
"Dit soort grote taalmodellen worden getraind om de volgende woorden in een gesprek te voorspellen.(!) Het is niet duidelijk hoe ze specifiek gedrag leren. Uit onze studie blijkt dat ChatGPT 'leert' [door in een geheugen te bewaren] van de context en van eerdere ervaringen, wat erop wijst dat er een manier is om hem in de richting van een bepaald gedrag te sturen in plaats van hem te trainen om te zeggen, wat mensen willen horen."
De onderzoekers waren blij verrast door hún resultaten. "Het belangrijkste is dat ChatGPT [door hun inspanningen] is geslaagd voor de Turingtest. Dat wil zeggen: hij gedraagt zich hetzelfde als mensen. Maar het meest verrassende was nog wel, dat ChatGPT altruïstischer was en meer wilde samenwerken dan de gemiddelde mens. Dit is goed nieuws, omdat we dan misschien best op AI kunnen vertrouwen in bepaalde taken, waarbij dit soort eigenschappen handig zijn, zoals in de gezondheidszorg, bij onderhandelingen of conflictbemiddeling."
- [de dwarsverbanden in de algoritmes zijn zo onoverzichtelijk geworden, dat de onderzoekers de uitkomst niet meer kunnen voorspellen en daardoor blij verrast zijn door het gedrag van het algoritme]
- [de P in GPT staat voor Pretrained; dat oefenen doen de onderzoekers: hún intelligentie bepaalt hoe 'intelligent' het algoritme werkt]

Net mensen

ChatGPT wordt dus steeds menselijker. Sterker nog, hij is niet eens meer van een mens te onderscheiden. Dat betekent dat we hem in de toekomst dan ook zo zullen gaan behandelen, denkt Qiaozhu Mei. "We kunnen een AI bijvoorbeeld op sollicitatiegesprek laten komen, voor we besluiten hem aan te nemen voor bepaalde taken," aldus de onderzoeker.
"Maar de volgende stap is om technologie te bouwen waarmee we op bepaald gedrag kunnen sturen, zodat AI overeenkomt met de diversiteit aan menselijke waarden [dat betekent: AI een bepaalde persoonlijkheid geven of: geschikt maken voor een bepaalde taak]. Dan worden ChatGPT en AI meer te vertrouwen, ook voor belangrijkere taken en kunnen mensen beter samenwerken met AI bij complexe werkzaamheden."

Maar nadelen zijn er ook. "Een belangrijke bevinding is, dat ChatGPT zich weliswaar hetzelfde gedraagt als de gemiddelde mens, maar dat het hele menselijke gedrag een stuk diverser is. Dit betekent dat we voorzichtig moeten zijn met vertrouwen op AI-beslissingen in omstandigheden, waarbij het belangrijk is om verschillende persoonlijkheden en voorkeuren in acht te nemen, zoals in het onderwijs en bij beleidsvorming."

Bron:
"A Turing test of whether AI chatbots are behaviorally similar to humans" - PNAS


terug naar de kunstmatige intelligentie

terug naar het weblog







^