AI

AI Hallucinaties zijn geen foutjes, ze zijn ingebakken in het systeem

Grote taalmodellen zoals GPT-4 verzinnen regelmatig informatie, zelfs bij vragen die gebaseerd zijn op concrete documenten.

Bij feitelijke prompts met bronvermelding blijkt tot wel 30% van de referenties verzonnen. Zelfs bij eenvoudige feiten ligt het foutpercentage nog rond de 5%. Dat is geen tijdelijke tekortkoming of programmeerfout.

Hallucinaties zijn geen glitches, maar het logische gevolg van hoe deze modellen fundamenteel werken. Het is geen simpel geval van “rommel erin, rommel eruit”, al speelt dat soms ook een rol.

Het probleem zit dieper: het is een structurele afweging tussen generalisatie en precisie. Tussen iets geloofwaardig laten klinken en iets feitelijk correct weergeven.

Gelet op hun huidige prestaties is het dan ook niet aan te raden om large language models (LLM’s) in te zetten als primair of uitsluitend hulpmiddel bij systematische literatuurstudies.

Door hen gegenereerde referenties moeten altijd zorgvuldig worden gevalideerd door onderzoekers.

De hoge mate van hallucinaties benadrukt de noodzaak om deze modellen verder te verbeteren in training en ontwerp, voordat ze betrouwbaar kunnen worden ingezet voor strikte academische toepassingen.

Lees het Science Direct artikel voor meer informatie.