AI

Waarom LLM’s een doodlopende weg zijn?

Richard Sutton, grondlegger van Reinforcement Learning (RL), stelt dat grote taalmodellen (LLM’s) zoals ChatGPT en Gemini geen echte intelligentie bezitten. Ze voorspellen enkel wat een mens waarschijnlijk zou zeggen, zonder begrip of doelgericht handelen.

LLM’s zijn goed in het imiteren van menselijke taal, maar missen ervaring in de echte wereld. Echte intelligentie komt volgens Sutton uit ervaringsgericht leren: handelen, feedback krijgen, en verbeteren.

“Prediction is not understanding. Understanding comes from interaction.”

Meer data en grotere modellen leiden niet automatisch tot begrip.
Sutton vergelijkt dit met “het opvoeden van een kind door enkel miljoenen boeken te laten lezen zonder ooit te spelen”.

Reinforcement Learning biedt een pad naar systemen die hun eigen doelen stellen en leren door beloningen. Sutton noemt dit “the reward is enough”–hypothese: een enkel principe van beloningsgestuurd leren kan leiden tot algemene intelligentie.

De huidige LLM-hype is volgens hem tijdelijk. De volgende golf zal bestaan uit agenten die kunnen handelen in de wereld, niet alleen praten over de wereld. Hij voorspelt dat RL-gebaseerde systemen uiteindelijk zelfbewust gedrag en duurzaam leren zullen tonen.

Sutton waarschuwt dat echte autonome agenten ook risico’s meebrengen. We moeten leren om AI niet te programmeren met vaste regels, maar ethische beloningsstructuren die goede uitkomsten stimuleren.