ChatGPT, het AI-taalmodel


1. De werking van het automatische schrijfprogramma ChatGPT
Eind november was hij er opeens: de chatbot ChatGPT, die zo'n beetje alles voor je kan schrijven wat je maar wilt. De media kregen er geen genoeg van. En al snel kwamen ook de nadelen aan het licht.
Marc van Oostendorp in Onze Taal, maart/april 2023, tijdschrift van het Genootschap Onze Taal

Overstelpen computers ons straks met onzin?
Waarschijnlijk heeft er nog nooit een website in de eerste dagen van zijn bestaan zó snel zó veel gebruikers gekregen als ChatGPT. Daarop kun je sinds eind november automatisch - door het formuleren van een opdrachtprompt - teksten laten schrijven over willekeurig welk onderwerp; naar verluidt hadden zich binnen vijf dagen al een miljoen gebruikers ingeschreven voor de dienst. Ter vergelijking: Netflix deed drieënhalve maand over dat eerste miljoen. De groei heeft sindsdien alleen maar doorgezet: hoewel OpenAI, het bedrijf achter ChatGPT, geen gegevens prijsgeeft, hebben waarschijnlijk honderden miljoenen mensen op deze manier allerlei tekstjes laten schrijven.
De resultaten zijn dan ook verbazingwekkend. Wie de afgelopen maanden de media heeft gevolgd, kon er al veel staaltjes van zien. Het systeem schrijft net zo gemakkelijk een computerprogramma om te bepalen of twee woorden anagrammen zijn als een glasheldere uitleg over het verschil tussen de romaanse en de gotische kerkbouw. En tussendoor nog een gedicht over de smaak van sushi in de stijl van William Shakespeare, een persbericht over de ontdekking van het perpetuum mobile, en een gloedvol betoog in het Fries tegen de Elfstedentocht ("in ûnbehannelbere belêsting foar de lokale mienskip").

Schattingen
Dat een apparaat dit allemaal kan, zo snel en vooralsnog ook nog gratis, is nooit eerder vertoond. Althans, de afgelopen jaren kwamen er uit de wetenschap en de computerindustrie al wel berichten over de snelheid waarmee computers leerden met taal om te gaan, maar nu kon iedereen het ineens zelf proberen.
Er waren vrijwel onmiddellijk ook ongewenste toepassingen. Midden januari verschenen er alarmerende berichten over scholieren die de chatbot hun huiswerk lieten doen. Waarom zou je zelf een opstel schrijven als je het in een mum van tijd door de computer kunt laten doen? De servers van OpenAI raakten dan ook geregeld overbelast. Volgens sommige schattingen kostte het het bedrijf een miljoen euro per dag om aan alle schrijfopdrachten van over de hele wereld te voldoen.

Match
De innovatieve techniek achter ChatGPT is nog maar een paar jaar oud. In 2017 schreven enkele onderzoekers van Google een artikel dat 'Attention Is All You Need' heette, 'Aandacht volstaat'. Zij richtten zich in eerste instantie op vertaalcomputers, zoals die van Google Translate. Eerdere vertaalcomputers gebruikten een in wezen heel eenvoudige techniek: ze vertaalden woord voor woord, en om dubbelzinnigheden op te lossen letten ze daarbij hooguit op wat er onmiddellijk voor en achter het te vertalen woord stond. Het Engelse match vertaal je als 'overeenkomen' als er to voor staat (to match), maar als 'wedstrijd' of 'lucifer' als er het lidwoord the voor staat.

De ambiguïteit tussen de laatste twee betekenissen is lastiger op te lossen. Je moet daarvoor vaak in een wat bredere context kijken, soms meerdere woorden verderop. 'The players are enjoying the match' roept meestal de eerste betekenis op: 'De spelers genieten van de wedstrijd.' 'The heavy smoker was desperately looking for a match' de andere: 'De zware roker zocht wanhopig naar een lucifer.'
In dit geval staan de woorden die de dubbelzinnigheid oplossen nog in dezelfde zin, maar in sommige gevallen kunnen ze ook heel ergens anders in de tekst staan. Dat maakte de oude oplossing onwerkbaar, want ook de krachtigste computers kunnen niet naar hele teksten tegelijk kijken. Daarom is de 'aandacht' uit de titel van het stuk van de Google-onderzoekers zo belangrijk: je moest de computer leren de aandacht alleen te richten op bepaalde woorden in de context, zoals in dit geval op spelers of roker. Of er in een vorige zin voor zo'n woord de of het staat, maakt daarbij meestal geen verschil.

Moreel kompas
Op de uitvinding van deze automatische 'aandacht' werden al snel ook andere dan vertaalcomputers gebouwd, zoals dus chatbots die met de gebruiker in gesprek kunnen gaan over willekeurig welk onderwerp. Er zijn inmiddels zogeheten 'taalmodellen' gemaakt op basis van deze techniek die aan de hand van miljarden teksten hebben geleerd waar de aandacht naartoe moet en die zo zelf hebben leren schrijven. GPT-3 bijvoorbeeld, het taalmodel waarop ChatGPT gebaseerd is, heeft ongeveer 45 terabyte aan tekst gelezen, een overstelpende hoeveelheid; daar zit bijvoorbeeld waarschijnlijk vrijwel het hele openbaar toegankelijke internet bij. Naar verwachting verschijnt dit jaar een nog veel krachtiger opvolger: GPT-4.

De makers van ChatGPT hebben trouwens nog wel een 'schil' om GPT3 gelegd, die bijvoorbeeld probeert te voorkomen dat het systeem racistische of seksistische taal uitslaat. Dat is vaak een probleem van taalmodellen die getraind worden op internetmateriaal: ze komen dat soort praatjes vaak tegen en zonder eigen moreel kompas herhalen ze die dan.

Stem
Er zijn ook verder nog genoeg redenen om de huidige ontwikkelingen met zorg te bezien. Taalmodellen zijn duur en slurpen energie - volgens sommige schattingen evenveel als een middelgrote stad. Om de resultaten te toetsen en de 'schil' te maken is bovendien gebruikgemaakt van onderbetaalde krachten in derdewereldlanden. Het is de vraag of de lol van automatische teksten daartegen opweegt.
Bovendien moeten die kosten natuurlijk op de een of andere manier worden terugverdiend. OpenAI heeft al aangekondigd dat het in de voortgebrachte teksten een 'watermerk' wil verbergen: een statistisch patroon dat de mens niet opvalt, maar dat OpenAI zelf wel herkent. Leraren die met de handen in het haar zitten over de werkstukken van hun scholieren, kunnen dan - maar dan wel tegen betaling - opsporen of ChatGPT gebruikt is.

Een ander bezwaar is dat wij op deze manier mogelijk het schrijven verleren. Er is misschien geen betere manier om je gedachten te ordenen dan door te schrijven, dus wat als dat niet meer hoeft? Hoeveel er verloren gaat aan menselijke denkkracht door het inzetten van de computer valt niet te voorzien.

Tot slot wijzen sommige critici op de mogelijke toename van de hoeveelheid onzin, spam en fakenews op het internet. Als menselijke trollen, met hun beperkte menselijke krachten, nu al zoveel schade kunnen toebrengen aan allerlei discussies, wat betekent het dan voor de democratie als er straks computers zijn die permanent miljoenen onzinteksten uitbraken die allemaal op internet kunnen worden geplaatst? ChatGPT is een leuk speeltje, maar helpen alle mensen die er nu mee spelen er niet aan mee dat we straks overstelpt raken met onzin? En moeten we ook hier weer met dure software gewatermerkte teksten wegfilteren om nog iets te kunnen vinden van een menselijke stem?

2. ChatGPT: het AI-taalmodel dat een revolutie teweeg kan brengen
Xs4all Nieuwsbrief, Nieuws en tips april 2023

In de afgelopen jaren zijn conversatie-interfaces steeds populairder geworden. Denk aan de opkomst van chatbots, virtuele assistenten en spraakgestuurde apparaten. Deze interfaces zijn ontworpen om op een natuurlijke manier met mensen te communiceren, met behulp van natuurlijke taalverwerking (NLP) en machine learning-technieken.
Een van de meest veelbelovende ontwikkelingen op dit gebied is de opkomst van geavanceerde taalmodellen zoals ChatGPT. Dit is een AI-taalmodel ontwikkeld door OpenAI, gebaseerd op de GPT-3-architectuur. Het is een van de grootste en krachtigste taalmodellen die momenteel beschikbaar zijn, met meer dan 175 miljard parameters.

Wat is ChatGPT?
ChatGPT is een machine learning-model dat is ontworpen om natuurlijke taal te beoordelen en te genereren. Het taalmodel is getraind op een enorme hoeveelheid gegevens. Waaronder tekst van internet, boeken en andere bronnen. Dankzij deze trainingsgegevens heeft ChatGPT veel kennis van de structuur en patronen van menselijke taal kunnen ontwikkelen. Zo kan het tekst genereren die zeer vloeiend en natuurlijk klinkt.

Hoe werkt het?
ChatGPT werkt door de invoertekst te analyseren en een reactie te genereren. Dit doet het model op basis van de patronen die het heeft geleerd uit de trainingsgegevens. Enkele voorbeeld van vragen die u ChatGPT kan stellen zijn: "Wat zijn de nieuwste technologische trends?", "Kun je me een grap vertellen?", "Wil je een blog schvrijven over meditatie?".
Een van de belangrijkste kenmerken van ChatGPT is de mogelijkheid om tekst te genereren die zeer coherent en contextueel relevant is. In tegenstelling tot traditionele chatbots, die eenvoudige, op regels gebaseerde systemen gebruiken om reacties te genereren, kan ChatGPT de onderliggende betekenis en context van de invoertekst 'beoordelen', waardoor het reacties kan genereren die genuanceerder en geavanceerder zijn.

ChatGPT heeft een breed scala aan potentiële toepassingen op het gebied van gespreksinterfaces. Enkele van de meest veelbelovende use-cases zijn klantenservice, personalisatie en taalvertaling.
Een aantal voordelen op een rij
- Conversatie: ChatGPT is ontworpen als een conversatietaalmodel. Het kan natuurlijke taal 'begrijpen' en adequaat reageren op vragen van gebruikers.
- Breed scala aan onderwerpen: ChatGPT is getraind op een breed scala aan onderwerpen. Dit betekent dat het vragen over uiteenlopende onderwerpen kan beantwoorden.
- Constante verbetering: ChatGPT leert en verbetert voortdurend. Naarmate het met meer gebruikers communiceert, leert het een beter omgaan met natuurlijke taal en kan het betere antwoorden geven.
- Tijdbesparend: ChatGPT kan snel en efficiënt antwoorden geven op vragen van gebruikers, wat tijd en moeite bespaart.
- Meertalig: ChatGPT ondersteunt meerdere talen, waardoor het toegankelijk is voor gebruikers over de hele wereld.

Hier moet u op letten
- Beperkt begrip: ChatGPT is een machine learning-model en mist het begrip en het gevoel van een mens. Het is mogelijk niet in staat om gepersonaliseerde antwoorden te geven die rekening houden met de gevoelens en ervaringen van de gebruiker.
- Bevooroordeeld: ChatGPT is slechts zo onbevooroordeeld als de gegevens waarop het is getraind. Als de gegevens vertekend zijn, zijn de antwoorden van ChatGPT ook vertekend.
- Technische beperkingen: ChatGPT kan alleen vragen beantwoorden waarop het is getraind. Het is mogelijk niet in staat om complexe vragen te begrijpen, die contextuele kennis of kritisch denken vereisen.
- Beperkt geheugen: ChatGPT heeft een beperkt geheugen en kan eerdere interacties met gebruikers vergeten. Dit kan leiden tot repetitieve gesprekken en frustratie voor de gebruiker.
- Privacykwesties: ChatGPT kan gebruikersgegevens en gesprekken opslaan. Dit roept zorgen op over privacy en gegevensbeveiliging.

Conclusie
ChatGPT is een krachtig taalmodel met veel voor- en nadelen. Hoewel het efficiënt antwoorden kan geven op vragen van gebruikers, is het belangrijk om de beperkingen en mogelijke vooroordelen te erkennen. Zoals met elke technologie, is het aan de gebruikers om deze op verantwoorde en ethische wijze te gebruiken.

PS. Deze blog is geschreven door ChatGPT! Probeer het zelf met chat-gpt.com/nl.

3. AI, eenvoudig uitgelegd
Xs4all Nieuwsbrief, Nieuws en tips november 2023

AI-systemen hebben geen bewustzijn. Ze bestaan uit data en algoritmes.

Artificiële intelligentie is een verzamelnaam voor alles wat computers zelf beslissen. Als u op uw smartphone een verkeerd gespeld woord automatisch laat corrigeren, maakt u er al gebruik van. Artificiële intelligentie, is niet als los product te koop. Het is een verzameling van methodieken en technologieën. In de praktijk hebben we het over AI als een computer zelfstandig data kan analyseren. En op basis van die data tot conclusies kan komen.
Spotify gebruikt AI om erachter te komen naar welke muziek u graag luistert. Zo kan Spotify u nieuwe muziek aanraden, waarvan het denkt dat u die ook leuk vindt. Google Images gebruikt AI om u foto's te laten zien die het beste bij uw zoekopdracht passen.
Laat u Google Maps de handigste en snelste route berekenen? Lopend, met de fiets, de auto of het openbaar vervoer? Ook dat gebeurt met AI. En stelt u weleens een vraag aan de Google Assistent? Ook die werkt met AI. Net als Siri van Apple en Cortana van Microsoft.

Hoe lang bestaat AI al?
In 1952 bouwt de Britse computerkundige Arthur Samuel het eerste programma dat kan dammen. Drie jaar later ontstaat de uitdrukking artificiële intelligentie. De doorbraak komt in 1996. De Deep Blue-schaakcomputer van IBM verslaat wereldkampioen schaken Garry Kasparov. Vanaf dat moment staat artificiële intelligentie volop in de belangstelling.
In 1997 bouwt Microsoft voor het eerst software in Windows die gesproken taal kan herkennen. In de jaren 2000 verschijnen er meer alledaagse toepassingen. Denk aan zoekmachines voor internetpagina's, e-mailfilters om ongewenste e-mails (spam) tegen te houden en de eerste spraakassistenten.
In 2015 wint het computerprogramma AlphaGo van Deep Mind Technologies een spelletje Go van de Europees kampioen Fan Hui. Dit spel is veel complexer dan schaken.
In 2022 lanceert het bedrijf OpenAI de taalrobot ChatGPT. Gebruikers kunnen er vragen aan stellen en het programma geeft antwoord met een eigen tekst. Opvallend is dat de antwoorden gedetailleerd zijn en menselijk klinken.

Voorbeelden als input
Wat is intelligentie nou precies? Is een schaakcomputer die heel goed kan schaken intelligent? Of is die dom omdat hij verder niks anders kan? Mensen hebben Deep Blue geleerd om te schaken. Doordat hij snéller kan rekenen dan mensen, verslaat hij de wereldkampioen. Deep Blue voorspelt alle mogelijke uitkomsten.
AlphaGo werkt anders. Op basis van miljoenen spelletjes die het met mensen en zichzelf heeft gespeeld, weet het wat de beste uitkomst is. In tegenstelling tot Deep Blue is AlphaGo niet vooraf geprogrammeerd door mensen.
Als je een systeem heel veel voorbeelden als input geeft, kan het deze herkennen. En vervolgens zelf keuzes maken. Stel je wil het systeem een onderscheid laten maken tussen een stoel en een tafel. Dan laat je het duizenden plaatjes zien waarvan je zegt: dit is een stoel. Heeft het systeem al deze foto's geanalyseerd en bied je een foto aan zonder iets te zeggen, dan herkent het systeem dat het een stoel is. Of een tafel als je die hebt aangeboden.

Verzameling instructies
Kunstmatige Intelligentie bestaat uit niets anders dan twee bestanddelen: data en algoritme's.
Voorbeelden van data zijn een foto van een stoel of tafel, zoals in het voorbeeld hierboven. Een algoritme is niets meer dan een verzameling instructies. Het is een aantal stappen dat je zet om een bepaald doel te bereiken. Een rekensom is een algoritme, maar een recept ook. U volgt stappen in een recept om het doel te bereiken: bijvoorbeeld een maaltijd op tafel.
De aanbevelingen van een videodienst als Netflix werken ook met een algoritme. Aan de hand van uw kijkgedrag weet Netflix wat u leuk vindt. Op basis van uw kijkgeschiedenis geeft het algoritme van Netflix kijktips. Hoe meer u kijkt, hoe beter Netflix weet waar u van houdt. Zo krijgt u steeds nauwkeurigere aanbevelingen.

Zelflerend
AI-systemen hebben geen bewustzijn. Zelflerend betekent ook niet dat alles vanzelf gaat. De werking van AI is zo goed, of zo slecht, als de algoritmes en wiskundige modellen waarmee ze zijn geprogrammeerd. Door mensen! Op basis daarvan kunnen algoritmes wel conclusies trekken. Om vervolgens weer verdergaande conclusies te trekken. Dat noemen we zelflerend. Maar er is zorgvuldige monitoring en controle nodig om ervoor te zorgen dat AI zich gedraagt zoals de programmeurs het hebben bedoeld.

4. Kansen en gevaren van artificiële intelligentie
Xs4all Nieuwsbrief, Nieuws en tips, maart 2024

Artificiële intelligentie (AI) kan een positief effect hebben op onze samenleving. Maar alleen als het veilig, transparant en verantwoord is. Hoe kunnen we AI op een goede manier verder ontwikkelen? We vroegen het Natasha Alechina, hoogleraar Safe and Responsible AI aan Open Universiteit.

De ontwikkelingen van AI gaan razendsnel. Wat zijn de grootste doorbraken dankzij AI de afgelopen periode en waarom?
"Sinds tien jaar zijn er grote hoeveelheden data beschikbaar, zodat AI beelden kan herkennen. Ook zijn computers sneller en krachtiger geworden. In de gezondheidszorg wordt AI op deze manier gebruikt om afwijkingen op foto's of scans van patiënten te herkennen. Een andere doorbraak is dat AI-systemen beelden, tekst en muziek kunnen maken. Sinds 2022 kan iedereen ChatGTP gebruiken, waardoor AI heel erg in de belangstelling staat."

Gaan de ontwikkelingen van AI té snel?
"Ik denk niet dat het te snel gaat, maar dat AI te snel wordt toegepast. Men verwacht sommige dingen zonder mensen te kunnen doen, maar dat is niet waar. Zeker niet voor de regering, de gemeente of als er mensenlevens op het spel staan. We moeten goede wetten en regels hebben, zodat AI geen copyright schendt. De taalrobot ChatGPT is gebaseerd op teksten die anderen hebben geschreven! Dat was ook een reden waarom schrijvers van tv-scripts in Amerika afgelopen najaar staakten. Zij willen een betere bescherming tegen artificiële intelligentie."

Welke kansen van AI moeten we zeker gaan benutten en waarom?
"Het kan helpen in de geneeskunde. Het is voor mensen heel intensief om lang en geconcentreerd radiologische beelden te bekijken. Hier kan AI een eerste selectie maken maar mensen moeten beelden die afwijken, vervolgens zelf beoordelen. Alleen zij weten wat voor een bepaalde patiënt normaal is. Het maakt bijvoorbeeld uit of het om een kind gaat of een ouder iemand. Andere kansen die we zeker moeten benutten, is om werk dat weinig mensen willen doen door AI te laten doen. Denk aan saaie, repeterende handelingen in een fabriek of bij administratief werk."

Wat kunnen gevaren zijn van AI en waarom?
"Eén van de gevaren van AI is dat mensen het gebruiken voor toepassingen waar het niet voor bedoeld is. Bijvoorbeeld om een uitkering aan mensen toe te kennen. Of om via camerabeelden iemand aan te houden voor een misdaad. Er is altijd een risico dat niet alle data die je gebruikt honderd procent objectief is. Als je AI voedt met data die subjectief is, zijn de uitkomsten van AI dat ook. Dat is dus een risico. Want AI mag natuurlijk niet discrimineren op bijvoorbeeld leeftijd of huidskleur.
De meest succesvolle AI-systemen zijn een 'black box'. Ze zijn zo complex dat het voor mensen nauwelijks is te begrijpen hoe ze tot hun beslissingen komen. Als AI is getraind met verkeerde data, dan heeft het verkeerde dingen geleerd. Er is altijd een kans dat het fout gaat. Dat kunnen heel eenvoudige fouten zijn. Bijvoorbeeld dat het systeem elke naam die met een A begint, afwijst voor een lening. Ook kunnen er veel banen verloren gaan door AI. Bijvoorbeeld het besturen van een vrachtwagens over lastige routes. Niet nu maar over ongeveer vijftien jaar."

Hoe kunnen we AI op een verantwoorde wijze verder ontwikkelen?
"Mensen moeten niet denken dat AI perfect is en alles alleen kan. We zullen juist moeten samenwerken met AI! Verder zullen we meer onderzoek moeten doen naar hoe we deze 'domme' systemen kunnen helpen. Als AI een foto bekijkt, dan ziet het alleen maar pixels. AI heeft geen menselijke kennis en geen kennis van regels. Het weet niet wat een ziekte is of wat ethiek is. Daarom worden er hybride AI-systemen ontwikkeld waarbij AI gebaseerd op leren en AI gebaseerd op regels samenwerken. Die systemen kijken naar pixels met menselijke kennis van regels. Mensen hebben het systeem 'uitgelegd' waar het op moet letten."

Welke tips heeft u om verantwoordelijk om te gaan met AI?
"Het is belangrijk dat iedereen begrijpt hoe AI werkt. En hoe je het in een bedrijf kunt toepassen. Beslissingen moeten transparant zijn. Uit onderzoek blijkt dat ChatGPT niet voor honderd procent te vertrouwen is. Het heeft geen kennis en geen logica. Het weet niet wat een feit is! ChatGPT is geen databank en is er ook niet aan gekoppeld. Het is een taalmodel dat 'denkt': welk woord komt hierna? Bijvoorbeeld als antwoord op een vraag. Als je op zoek gaat naar een citaat maakt het geen onderscheid tussen literatuur, een krant of onzin op internet. Daarvan moet je je bewust zijn. Dat betekent dat je inzicht moet hebben in hoe AI-systemen tot hun antwoorden en beslissingen komen. De antwoorden die ze geven, en de beslissingen die ze nemen, zul je inhoudelijk moeten controleren."

What's next?
"Robots zullen een deel van het werk doen dat nu door mensen gedaan wordt. Bijvoorbeeld in kerncentrales, bij natuurrampen of om mensen te redden. Over zo'n 15 jaar zullen ze mensen 24 uur per dag gaan verzorgen. Maar daarbij zullen ook mensenogen en -handen nodig blijven. Er wordt nu veel onderzoek gedaan naar hoe je patiënten medisch kunt ondersteunen met robots. Er zijn nu al zorgrobots met sensoren, stemsynthesizer, speakers en een ingebouwde camera. Die ondersteunen bijvoorbeeld therapeuten bij revalidatie- en bewegingsoefeningen. De robots registreren de uitgevoerde oefeningen, inclusief de intensiteit van de training per patiënt. Zorgrobots zijn ook heel geschikt als animators: ze spelen liedjes af en stimuleren mensen om mee te zingen. Ze kunnen ook allerlei vragen van patiënten beantwoorden.
Ik hoop dat de AI-hype langzaam minder wordt, zodat we de tijd nemen om goed onderzoek te doen en toepassingen uitvoerig te testen. Het is mijn wens dat we leren leven met AI en het op een nuttige manier gebruiken. Daarvoor is meer onderzoek en uitleg nodig. We zullen moeten weten wat er in die black box gebeurt. Hoe AI tot zijn antwoorden en beslissingen komt. Er zullen altijd mensen bij nodig zijn als AI iets niet begrijpt. En misschien wordt AI in de toekomst aan een grote database gekoppeld om feiten te checken!"


terug naar de kunstmatige intelligentie

terug naar het weblog







^