Mark Dingemanse - AI alleen maar een tekstherkauwer

Generatieve AI veroorzaakt een tsunami aan synthetische onzinteksten op het internet, ziet taal- en cognitiewetenschapper dr. Mark Dingemanse. We laten ons verleiden door de schijn van intelligentie, maar we moeten oplettend blijven.
Kennislink, 24-07-2024, door Amanda Verdonk

Voor veel AI-liefhebbers was 30 november 2022 een historische dag. Toen lanceerde het bedrijf OpenAI namelijk de tekstgenerator ChatGPT. Binnen een paar dagen had die al een miljoen gebruikers. Zelfs taal- en cognitiewetenschapper Mark Dingemanse van de Radboud Universiteit Nijmegen was onder de indruk. Maar niet van wat het programma allemaal kan, zegt hij, want technisch gezien was er weinig nieuws aan. Wat hij wel bewondert, is de userinterface, hoe het eruitziet voor de gebruiker. "Het is ontworpen als een chatconversatie: het antwoord verschijnt woord voor woord in beeld. Dat is heel slim gedaan. Dat roept bij ons de associatie op van een systeem dat echt aan het nadenken is."
Dingemanse heeft zijn studenten eens laten oefenen met twee versies van een tekstgenerator. Bij de ene verscheen het volledige antwoord direct in beeld, bij de andere kwam het per woord, net als bij ChatGPT. "Iedereen vond de tweede versie geloofwaardiger. We laten ons graag overtuigen dat we te maken hebben met echte intelligentie, in plaats van een tekstherkauwer."

Vervuild internet
Dingemanse bestudeert taal en hoe mensen die gebruiken om elkaar te informeren en dingen voor elkaar te krijgen. Hij ziet taal als een van onze oudste technologieën. "Wij mensen worden geboren in een wereld die is ondergedompeld in taal en sociale interactie. Het wijsgebaar en woordjes als 'die' en 'dit' zijn voor kinderen de eerste communicatieve symbolen. Computers hebben geen lichaam en geen autonomie. Ze hebben geen doelen, wensen of gedachten en kunnen niet handelen. Ze kunnen alleen strengen van woorden uitspuwen. Wij zien dat ten onrechte als intelligentie."

Dingemanse is dan ook weinig enthousiast over AI-gegenereerde teksten en ziet een tsunami van synthetische onzinteksten op ons afkomen. "Dé use case van deze technologie is het snel en op grote schaal genereren van spammail en nepwebsites die de zoekresultaten vervuilen." Direct na de lancering van ChatGPT probeerde Dingemanse dit zelf uit. Hij liet het programma een website genereren over een bepaald dier. En dat op zo'n manier dat zoekmachines er dol op zijn en deze website graag bovenaan de lijst met zoekresultaten weergeven.
Dat lukt bijvoorbeeld door de tekst zo te schrijven dat het
- behulpzaam, deskundig en bondig overkomt,
- door een indeling in paragrafen te maken,
- en door gebruik te maken van veelvoorkomende trefwoorden en opsommingslijstjes.
Zoekmachineoptimalisatie heet dat.

Dingemanse vertelde niemand over de website (daarom noemen we hier het type dier ook niet). Desondanks stijgt de website steeds meer in de zoekresultaten. "Hij staat zelfs regelmatig boven de Encyclopedia Britannica."

Zo raakt het web steeds meer overspoeld met synthetische informatie, doordat die in de zoekresultaten verschijnt, maar ook doordat er veel AI-gegenereerde boeken op Amazon en Bol te koop zijn. "Het kost je niks om zo'n boek te maken, en als een paar nietsvermoedende klanten jouw slechte bullshitboek kopen, kun je een paar knaken verdienen." De maatschappij draait op voor de kosten, stelt Dingemanse. "Zoals auteurs die daardoor minder boeken verkopen, of lezers die meer moeite moeten doen om goede boeken te vinden. Daar komt nog eens bij dat programma's als ChatGPT gigantisch veel energie verbruiken."

Ook het vinden van neutrale en feitelijke informatie op het internet staat onder druk door generatieve AI, meent Dingemanse. Veel zoekmachines hebben inmiddels een tekstkader bovenaan de pagina staan waarin AI het antwoord geeft op jouw vraag. Dat antwoord is samengesteld uit verschillende bronnen, maar bevat vaak onjuiste informatie.
"In die kaders vind je de meest gemiddelde informatie en de meest voorkomende feiten. Als ik op die manier wil opzoeken hoeveel voetbalclubs er in Rotterdam zijn, dan kun je er nog wel van uitgaan dat dat correct wordt weergegeven. Maar zoek ik iets heel specifieks, zoals wat ik moet doen als ik vermoed dat mijn dochter een hersenschudding heeft, dan ga ik absoluut niet op die synthetische teksten vertrouwen."
Dingemanse pakt het nu als volgt aan: hij tikt zijn zoekopdracht in Google en kiest daarna voor de optie 'Web' (bovenaan). Dan vind je alleen een klassiek overzicht met blauwe linkjes.

Stortvloed
Het kan nog verder ontsporen. De synthetische informatiebrij kan op den duur zo gigantisch groot worden dat we het risico lopen op model collapse, zoals dat in jargon heet. Dan wordt de trainingsdata van programma's als ChatGPT steeds meer gevoed met nepteksten, wat de kans dat ze onzin gaan uitkramen alleen maar groter maakt. "Je zou toch zeggen dat de techbedrijven die deze programma's ontwikkelen, er belang bij hebben om het onderscheid te kunnen blijven maken tussen mens gegenereerde en synthetisch gegenereerde teksten. Maar vooralsnog hebben de bedrijven alle touwtjes in handen en is de mensheid niet oplettend genoeg."

Gaan wij mensen ons wellicht anders gedragen door deze stortvloed aan synthetische informatie? Dingemanse vindt het lastig om dat te voorspellen, maar doet toch een voorzet. "Het kan zijn dat er bepaalde patronen in onze taal sluipen en dat we de synthetische manier van praten en schrijven overnemen. Maar het kan ook zijn dat we moe worden van die generieke woordenbrij en dat we er doorheen prikken.
Dan zijn er natuurlijk van die tech bros die zeggen: moet je mijn prompts (tekstcommando's, red.) eens zien, ik weet precies hoe je een tekst genereert die super origineel klinkt en heel veel engagement (onder meer likes en reacties, red.) op LinkedIn krijgt. Maar je hoeft er niet aan mee te doen. Als je een ambachtelijk taalgebruiker bent, en dat gewoon lekker blijft, dan hoef je je er niet zoveel van aan te trekken."

Bronnen:
'Bol.com vol met AI-boeken: Mensen maken tien boeken op een dag', BRN
'Why Google's AI Overviews gets things wrong', MIT Technology Review

terug naar kunstmatige intelligentie

terug naar het weblog

^