Ga naar de hoofdinhoud

Help! Mijn leerlingen maken hun huiswerk met ChatGPT

24/06/2025
Mitte Schroeven Begeleider professionele ontwikkeling en onderzoeker

Tijdens vormingen over de impact van artificiële intelligentie (AI) op onderwijs, komen heel wat vragen over het gebruik van generatieve AI bij taken. Leerkrachten merken dat leerlingen chatbots zoals ChatGPT, Copilot of Gemini gebruiken bij huistaken. Ze vragen zich af wat ze nu eigenlijk aan het beoordelen zijn en of dat nu wel zo zinvol is. Voor velen is dit momenteel misschien wel het meest prangende probleem wat AI en onderwijs betreft. Hoe weet je of leerlingen AI-tools gebruikt hebben of niet? Hebben ze dan nog wel geleerd wat ze moeten leren? Hoe geef je punten op zo’n taak? Sommigen zoeken hun heil in het simpelweg verbieden van AI (en dan heel erg hopen dat leerlingen het ook effectief niet gebruiken), anderen in AI-detectietools, waarvan de betrouwbaarheid erg twijfelachtig is. In hun artikel “Validity matters more than cheating” stellen Dawson en collega’s een andere benadering voor om te kijken naar fraude en AI. 

Wat is 'fraude' juist en waarom vinden we het niet ok? 

Je denkt misschien dat deze vraag eenvoudig te beantwoorden is, maar toch is het concept niet altijd even eenduidig. Stel: een leerling schrijft een tekst in het Engels in Google Docs en de ingebouwde spellingcorrectie onderstreept fout gespelde woorden. Is het dan oneerlijk dat die leerling de fouten kan verbeteren dankzij technologie? Of willen we hen net aanmoedigen om deze automatische feedback te gebruiken? Als leerlingen Google Translate gebruiken voor een schrijftaak Frans, is dat dan valsspelen? Wat als ze een woordenboek gebruiken tijdens het schrijven? Is er een verschil tussen een leerling die aan een chatbot tips vraagt om zijn schrijftaak beter te maken en een leerling wiens mama of papa al eens met een rode pen door de schrijftaak gaat? Soms is de grens tussen wat ‘oneerlijk’ en ‘wenselijk’ is behoorlijk dun.  

Vervolgens gaan de onderzoekers op zoek naar een verklaring van waarom we fraude niet ok vinden. Een eerste argument is dat het ‘oneerlijk’ zou zijn tegenover medeleerlingen. Je zit zelf uren aan een taak te zwoegen, en een medeleerling laat de taak genereren door ChatGPT en heeft misschien zelfs betere punten… Dat voelt misschien niet erg eerlijk, maar – zo beargumenteren Dawson en collega’s – het resultaat van je medeleerling zou eigenlijk geen impact mogen hebben op jouw eigen resultaat. Het onderwijs is immers geen competitie.  

Een volgend argument tegen fraude is de zogenaamde ‘academische integriteit’: als een student ‘valsspeelt’, dan gaat dat in tegen kernwaarden van eerlijkheid en verantwoordelijkheid. Vergelijk het een beetje met het gevoel van AI-schaamte dat je soms bekruipt als werknemer: als ik me laat assisteren door AI in deze taak, heb ik dan nog wel ‘hard gewerkt’? Is dat wel eerlijk? Het is een begrijpelijk gevoel, maar ook wel een gevoel dat vaak gepaard gaat met technologische vernieuwing. Denk maar aan het gebruik van Wikipedia in de beginjaren van het platform of het gebruik van vertaaltools. Wat eerst not done was of eerder dubieus, maakt nu deel uit van de dagdagelijkse praktijk. 

Waarom frauderen met AI wél een probleem is voor het leren

Een ander argument dat aangehaald wordt, is dat fraude het leren zou belemmeren: als een leerling valsspeelt door te plagiëren of te spieken, heeft die leerling niet geleerd. Dawson en collega’s doen dit argument van de hand door te stellen dat andere zaken zoals hobby’s het leren ook kunnen belemmeren, en dat we daar toch ook niet tegen zijn. Dit neigt wel erg naar ‘whataboutismi’: het is niet omdat iets anders ook een negatief effect kan hebben, dat dan je argument vervalt. Als een leerling of student een taak volledig laat schrijven door ChatGPT, dan is het enkel het taalmodel dat geleerd heeft. Dit heeft te maken met één van de kernaxioma’s van het onderwijs: ‘Whoever does the thinking gets the learning’. 

Heel wat leerkrachten en docenten worden momenteel met dit probleem geconfronteerd. Docent techniekfilosofie Hans De Zwart vertelt in De Correspondent over hoe het voelt alsof je studenten constant moet verleiden tot nadenken. In een professionele context waarin vooral het eindproduct belangrijk is, maakt het niet zo veel uit op welke manier je tot dat eindresultaat komt. Maar in het onderwijs gaat het niet om het eindproduct, het gaat om het leren. Of zoals Ted Chiang stelt in The New Yorker: een tekst laten schrijven door ChatGPT is alsof je in de sportschool gewichten heft met een vorkheftruck: je zult je “cognitieve conditie” op die manier nooit verbeteren.  

Ook in studies zien we resultaten die wijzen op het gevaar voor ‘metacognitieve luiheid’. In een onderzoek naar schrijfvaardigheid met of zonder generatieve AI bij universiteitsstudenten bijvoorbeeld, werd weliswaar een grote positieve impact gemeten op het eindresultaat, maar geen verschillen in kenniswinst of kennistransfer. De conclusie is dan ook: “Hoewel ChatGPT de taakprestaties op korte termijn kan verbeteren, stimuleert het mogelijk niet de intrinsieke motivatie of leerresultaten op de lange termijn” (Fan et al., 2024). Fraude met generatieve AI kan het leren wel degelijk belemmeren, en dat zou op termijn wel eens een groter probleem kunnen zijn dan we denken. 

Een verhaal over validiteit

Het laatste argument dat gebruikt wordt als het om fraude gaat is het argument van de validiteit: als de leerling AI of een andere technologie gebruikt heeft om de taak te maken, hoe kan je als leraar er dan nog een punt op geven? Volgens de onderzoekers is dit het sterkste argument, en het is een vraag waar heel wat leraren mee worstelen. Want wat ben je nog aan het beoordelen? Een eindproduct? Of hoe goed een leerling of student AI kan gebruiken voor het maken van een taak?   

De auteurs stellen dan ook voor om fraude (’cheating’) niet meer als moreel probleem te benaderen, maar als een kwestie van toetsvaliditeit. Een toets is valide als ze daadwerkelijk meet wat ze wil meten. Als je wil meten of leerlingen in de les houtbewerking een meubelstuk kunnen maken, dan is een schriftelijke proef waarschijnlijk niet valide.  

Als een student fraudeert - werk kopieert van iemand anders, spiekt of technologie gebruikt waar het niet toegestaan is - betekent dat vooral dat hun werk geen geldig bewijs is van beheersing – en dus geen basis vormt voor een positief oordeel. Dat is geen straf, maar een logische toetsbeslissing (Dawson 2024). 

De vraag naar validiteit bepaalt ook de rol die je technologie wil laten spelen. Als je wil meten of leerlingen in het lager onderwijs de ij/ei-woorden correct kunnen spellen, dan is het geen goed idee om hen een spellingchecker te laten gebruiken. Maar als je de creatieve schrijfvaardigheid van leerlingen wil beoordelen, dan is het gebruik van een spellingchecker misschien geen slecht idee. Als je wil kunnen afleiden of een leerling een boek gelezen heeft en er zelf over kan reflecteren en de taak is volledig gegenereerd door een taalmodel, dan is je conclusie op basis van het resultaat niet langer valide. Misschien is een mondeling gesprek over het boek dan wel een beter idee. En om het nog iets ingewikkelder te maken: wat als de leerling het boek wel gelezen heeft en zelf een reflectie heeft geschreven, maar een taalmodel heeft gebruikt om de taak te herschrijven in betere volzinnen? Je afleiding over het lezen van en reflecteren op het boek blijft nog steeds valide. Als je echter ook inferenties wil maken over de schrijfvaardigheid, dan kan je dat niet op basis van deze taak.  

Word leerkracht, geen AI-detective

We staan als leerkracht dus voor twee uitdagingen. Ten eerste: het ontwerpen van valide en betrouwbare toetsen en opdrachten is geen sinecure. En om validiteit en betrouwbaarheid te garanderen is het bij summatieve evaluatie wel degelijk heel belangrijk dat er niet gefraudeerd kan worden: als je een toets wil gebruiken om te beoordelen, en dus ook om te attesteren, dan is het belangrijk dat het resultaat betrouwbaar én valide is. Op een bepaald moment wil je meten wat leerlingen nu echt kunnen, en soms kan dat enkel zonder het gebruik van digitale tools.  

Ten tweede: als leerlingen AI gebruiken om cognitief lui te kunnen zijn, dan wordt er niet meer geleerd, en dat is wel degelijk een probleem. Het is trouwens zeker mogelijk om AI op een zinvolle manier in te zetten tijdens het leren (zie blogpost Studeren met AI), maar we weten uit onderzoek (en ervaring) dat leerlingen of studenten niet altijd automatisch kiezen voor de meest effectieve studeerstrategieën. Dus hoe kunnen we hen nog ‘verleiden’ tot zelf nadenken, zelf schrijven, zelf die productive struggle niet uit de weg te gaan? 

We geven je een aantal evidence-informed tips mee:  

  • Vertrek steeds vanuit een bewust en doordacht onderwijsontwerp (backwards design, Wigigns & McTighe, 2005): je bepaalt eerst je leerdoelen, kiest op basis daarvan hoe je dit op een valide manier aan het einde van de rit wil evalueren, en kiest bewust lesactiviteiten die nodig zijn om het leerdoel te bereiken. Daarna kan je beslissen waar het gebruik van AI (of andere hulpmiddelen) toegestaan is en waar niet. Net zoals leerkrachten wiskunde al jaar en dag aangeven welke opdrachten of toetsen wél met de rekenmachine gemaakt mogen worden of net niet, en leerkrachten geschiedenis bepalen welke opdrachten je met of zonder je historische atlas moet kunnen, kunnen we ook voor schrijfvaardigheid bepalen wanneer en waar het gebruik van generatieve AI toegestaan is, afhankelijk van wat we net willen meten. Nieuwe technologieën zoals generatieve AI vragen niet om morele veroordeling, maar om doordacht toetsontwerp (Dawson 2024). 
     
  • Communiceer duidelijk naar leerlingen wat toegestaan is en wat niet door te werken met een verkeerslicht of een ander AI-assessment systeem. Stel, je geeft een taak op voor filosofie, waarbij je leerdoel is: “De leerling kan zelfstandig reflecteren op de toepasbaarheid van een filosofische stelling in een actuele context en deze toepassing beargumenteren”. Je zou hen bijvoorbeeld toestemming kunnen geven om feedback te vragen aan een AI-chatbot op hun schrijfstijl, zonder het leerdoel in gevaar te brengen. Het probleem met deze aanpak is dat je nooit betrouwbaar kan controleren of je leerlingen zich aan de afspraak gehouden hebben of niet. Je kan de validiteit dus niet verzekeren, wat bij summatieve taken wel degelijk een probleem is (Corbin 2025). 
     
  • Als je afspraken maakt, leg dan ook uit waarom je voor deze aanpak kiest en waarom je het belangrijk vindt dat leerlingen bepaalde delen van de opdracht zonder hulp maken. Intrinsieke motivatie en het nut van een taak inzien, correleren negatief met frauderen (Krou et al., 2020). Het blijft echter wel een uitdaging om leerlingen te overtuigen om zelf iets te leren dat AI veel beter en sneller kan (Hamilton 2023).  
     
  • Verleg de focus van presteren naar leren: laat je leerlingen de taak bijvoorbeeld thuis voorbereiden en mondeling in de klas brengen in een debatoefening in kleine groepen. Leer hen hoe ze bij de voorbereiding generatieve AI zinvol kunnen inzetten door zelf te modelleren, en toon hen ook wat de risico’s zijn en hoe ze de antwoorden steeds moeten toetsen aan de informatie in hun cursus. Zet in op formatief handelen en feedback en geef opdrachten die leerlingen echt actief aan het denken zetten.  
     
  • Zorg bij summatieve evaluatie voor een zo groot mogelijke validiteit. En dit kan betekenen dat je een (deel van een) taak synchroon in de les laat uitvoeren, met gecontroleerd gebruik van technologie. Benadruk tijdens de formatieve opdrachten ook dat het uiteindelijke doel is om de opdracht zelfstandig te kunnen uitvoeren tijdens de toets of het examen.  
     

Er is al heel wat geld en energie gestoken in het opsporen van fraude en plagiaat in het onderwijs, maar de komst van generatieve AI stelt ons voor een fundamenteel probleem. Er zijn geen betrouwbare tools om uit te pluizen of AI gebruikt is of niet. Het was al redelijk frustrerend om ‘plagiaatpolitie’ te spelen bij het nakijken van taken, maar AI-detective zijn lijkt een bijna onmogelijke job. Leerlingen zijn bovendien gewiekst: ze laten een tekst genereren door een taalmodel en voegen dan zelf een aantal kleine spel- en grammaticafouten toe om het wat geloofwaardiger te maken (ja, echt). Dawson en collega’s schrijven dat de focus van het debat moet gaan over validiteit en over de vraag of onze leerlingen als ze afstuderen effectief datgene kunnen waarvan we beweren dat ze het kunnen. Bij summatieve taken en toetsen is dit zeker een goede manier om na te denken over het al dan niet toestaan van technologie. Maar ook een focus op leren is belangrijk. De echte opdracht ligt niet in het betrappen van leerlingen, maar in het doordacht ontwerpen van goed onderwijs, vanuit een krachtige en cognitief activerende didactiek.  

Bronnen

Verwante blogs