Impact van Gen AI op open leermaterialen

Deze blog is een productie van Zone 42 (Jan-Bart de Vreede (Kennisnet), Ben Janssen (OpenEd Consult) en mij).

Inleiding

Sinds de beschikbaarheid van Chat-GPT eind 2022 zijn zeer veel publicaties verschenen over de impact van deze tool op onderwijs. In het kielzog van Chat-GPT is ook veel belangstelling ontstaan voor allerlei andere op AI gebaseerde tools die in staat zijn kwalitatief hoge output te genereren op vraag van gebruikers. De basis van deze tools zijn de Large Language Models (LLM), neurale netwerken die getraind zijn met grote hoeveelheden data. Deze tools worden aangeduid door het acroniem Gen AI (Generative AI).

Voor deze blog hebben we een groot aantal publicaties bekeken (zie een overzicht onderaan deze blog). Thema’s die in allerlei varianten in deze publicaties worden genoemd:

  • Voorbeelden van hoe Gen AI kan worden ingezet in onderwijs en kan leiden tot varianten op of nieuwe didactische werkvormen. In het rapport Innovating Pedagogy 2023 van de OU-UK wordt Pedagogies using AI tools als één van de 10 trends van 2023 aangeduid. Genoemd worden toepassingen als Personal tutor, Collaboration coach, Study buddy, Exploratorium (a place to explore the world and ignite curiosity by providing tools that enable learners to find, play with, and explore data.) (Kukulska-Hulme et al, 2023).
  • Toetsen en assessments. Gen AI noodt tot herzien van vorm van toetsen om te voorkomen dat toetsresultaten volledig door Gen AI worden gegenereerd door lerenden.
  • Ethische aspecten (afhankelijkheid van grote commerciële spelers, bias in de data, impact op milieu bij doorrekenen van taalmodellen, onduidelijkheid over welke data gebruikt worden, auteursrecht schendingen).
  • Het potentieel van AI om bestaande ongelijkheden in het onderwijs te vergroten. Omdat voor AI-ondersteunde leermaterialen een goede toegang tot het internet benodigd is, bestaat het risico dat mensen zonder een dergelijke toegang niet van dat potentieel gebruik kunnen maken.
  • De achterliggende taalmodellen zijn niet evenredig gevoed met bronnen van over de hele wereld in allerlei talen. Dat leidt tot een bias in de resultaten, omdat niet alle perspectieven van waaruit een onderwerp kan worden benaderd voldoende vertegenwoordigd zijn.

Veel van deze thema’s zijn overigens niet specifiek voor Gen AI, maar zijn ook aandachtspunten bij inzet van EdTech in het onderwijs. Zo is goede toegang tot internet voor de meeste technologieën in het onderwijs een conditio sine qua non.

Maatregelen om ervoor te zorgen dat AI-ondersteunde leermaterialen toegankelijk zijn voor lerenden, ongeacht hun geografische of sociaaleconomische context, zijn dus essentieel voor het bevorderen van kansengelijkheid in het onderwijs.

Impact op open leermaterialen

De thema’s die in de inleiding al genoemd zijn, gelden veelal ook voor open leermaterialen. De specifieke kenmerken van open leermaterialen (vrij beschikbaar en rechten op lokale opslag, (her)gebruik, aanpassing, mixen met andere bronnen en verdere verspreiding) kunnen ervoor zorgen dat er voor open leermaterialen een specifieke impact bestaat. In publicaties worden de volgende thema’s genoemd:

  • Gen AI kan tijd besparen bij ontwikkeling of aanpassing van open leermaterialen. Een voor de hand liggend scenario, bij gebruik van ChatGPT, is dat gegenereerde teksten als eerste draft wordt gebruikt, waarna de menselijke materiedeskundige de draft verder bewerkt. Denk bij aanpassing bijvoorbeeld aan vertaling van de leermaterialen en lokalisatie (bijvoorbeeld door in de opdracht aan ChatGPT voorwaarden te stellen aan de content, zoals “gebruik alleen voorbeelden die in Nederland spelen”).
  • Auteursrechtelijk eigendom van door Gen AI gegenereerde werken is belangrijk bij het delen onder een Creative Commons licentie, en dit laatste is een probleem. Immers: om open leermaterialen te kunnen publiceren onder een open licentie is duidelijkheid over de bronnen die zijn gebruikt bij de ontwikkeling van het werk nodig om een juiste naamsvermelding te kunnen doen. Die duidelijkheid ontbreekt echter veelal.
  • Gepersonaliseerd leren. Sommige AI-algoritmes kunnen aanbevelingen op maat ontwikkelen voor open leermaterialen op basis van de prestaties, leervoorkeuren en ontwikkelingsgebieden van een lerende. Dit betekent dat lerenden open leermaterialen kunnen gebruiken die aan hun eisen voldoen, waardoor het leertraject boeiender en effectiever wordt. De vraag is hier wel of met gebruik van deze algoritmen de privacy van de lerende voldoende gewaarborgd wordt.
  • Van zoeken naar genereren. Zoekmachines voor open leermaterialen proberen leermaterialen op basis van educatieve metadata te indexeren en zo beter vindbaar te maken. Hoe lang duurt het nog voordat het niet zozeer gaat om het vinden van het juiste leermateriaal (vulkanen voor groep 7 van een vrije school) naar het genereren van het leermateriaal op basis van de tekstopdracht (prompt), die dan dus een genereeropdracht gaat worden.
  • Het maken van goede toetsvragen om te kijken of kennis is verworven is een complexe aangelegenheid. Het automatisch kunnen genereren van deze toetsvragen is niet alleen een enorme tijdsbeparing maar kan er ook voor zorgen dat leerlingen een constant veranderende set aan diagnostische vragen tot haar/zijn beschikking heeft om zichzelf te toetsen.

Wat betreft het tweede genoemde thema van auteursrecht beschrijft Kat Walsh (18 augustus 2023) enkele vraagstukken rond het gebruik van content met een Creative Commons licentie. Het grootste risico van de de door haar beschreven vraagstukken vinden wij dat een potentiële tsunami van AI-gegenereerde werken op de commons het moeilijk maakt om relevante en betrouwbare informatie te vinden. Wanneer die werken vervolgens gebruikt gaan worden om taalmodellen verder te trainen kan op termijn een garbage in garbage out situatie ontstaan.

David Wiley (5 juli 2023; 6 juli 2023) geeft een mogelijke uitwerking voor het thema “van zoeken naar genereren”. Hij schetst een scenario waarin een tekstboek vervangen wordt door een verzameling prompts, geformuleerd door een (inhoudsdeskundige) docent, die aan een lerende kan worden gegeven en die ook open gedeeld kan worden. Op basis van die prompts kan een lerende zijn of haar eigen (open) leermateriaal genereren.

Enkele vragen die bij dit idee gesteld kunnen worden:

  1. Voor wie doe je dat: de lerende of de docent? Een docent zou, wanneer deze verzameling prompts open worden gedeeld, die verzameling kunnen aanpassen naar zijn of haar lokale context voordat het aan de lerende wordt gegeven.
  2. Zou je een lerende ook prompts kunnen laten formuleren als aanvulling op of zelfs ter vervanging van de oorspronkelijke verzameling, waardoor je een lerende of groep van lerenden een eigen OER laat genereren?
  3. Kun je bronnen daarbij “sturen”, bijvoorbeeld alleen gebruikmaken van open beschikbare bronnen?
  4. Hoe kun je als docent grip houden op of leeruitkomsten op deze wijze worden behaald? Het is immers onbekend wat het op basis van de prompts gegenereerde resultaat is; dat kan per dag wijzigen. Een mogelijke oplossingsrichting ligt in het maken van een duidelijke koppeling met het curriculum in de prompts. Het PO en VO kan dit realiseren door gebruik te maken van de curriculum informatie die het SLO als open data beschikbaar heeft gesteld.

De vragen 1 en 2 illustreren een mogelijke uitbreiding van de huidige situatie rond het bepalen van de te gebruiken leermaterialen. Veelal schrijft een docent voor welke leermaterialen gebruikt gaan worden (met een onderscheid tussen verplicht en aanbevolen). Daarnaast zullen lerenden op zoek gaan naar aanvullende leermaterialen of (bijvoorbeeld in onderwijsvormen waar veel agency bij de lerende wordt gelegd) zullen lerenden zelf op zoek gaan naar (open) leermaterialen om hun leeruitkomsten te behalen (Schuwer & Baas, 2023).

In feite betekent dit idee dat een verzameling prompts een nieuw type open leermateriaal is. Deze zullen zeker niet op korte termijn bestaande typen open leermaterialen gaan vervangen. Er zijn momenteel mooie open leermaterialen beschikbaar, die vaak gebruik maken van diverse typen content: tekst, simulatie, video, interactieve vragen. De content “sec” zou door Gen AI kunnen worden gegenereerd; de mediakeuze en verwerking daarin (nog?) niet. Het eerder gesignaleerde thema van een mogelijke ondervertegenwoordiging van niet-Westerse bronnen maken reeds bestaande open leermaterialen met een niet gebruikelijk perspectief op een topic des te waardevoller.

Hoe verder?

Gedachtenvorming over issues van gebruiken van Gen AI in het onderwijs, en dus ook specifiek betreffende open leermaterialen, is nog volop gaande.

Wij denken dat het beschikbaar hebben van een kwalitatief hoogwaardige verzameling open leermaterialen misschien nog wel belangrijker is dan ooit. Niet alleen kunnen deze leermaterialen gebruikt worden als voeding voor taalmodellen achter Gen AI, maar het zal volgens ons ook nog een tijd duren voordat Gen AI in staat zal zijn met name de leermaterialen met diverse typen content zodanig te genereren dat slechts weinig menselijke inspanning nodig is om ze bruikbaar te maken voor de onderwijspraktijk. Dit betekent wel dat, nog meer dan momenteel al gebeurt, aandacht nodig is voor het transparant maken van de kwaliteit van een collectie open leermaterialen en deze kwaliteit ook te borgen.

Bestaande kwalitatief hoogwaardige open leermaterialen kunnen ook gebruikt worden om een eigen taalmodel op te bouwen, waardoor de openheid van de door Gen AI gegenereerde content gewaarborgd is. Bij het opbouwen van dat taalmodel moet ervoor worden zorggedragen dat Gen AI bij het genereren van nieuw open leermateriaal in staat is de gebruikte bronnen op correcte wijze te kunnen vermelden.

Wij pleiten ervoor deze taalmodellen landelijk te ontwikkelen. Mogelijk dat dit binnen de programma’s Npuls en Impuls Open Leermaterialen kan plaatsvinden. SURF en Kennisnet zijn in dit scenario gezamenlijk verantwoordelijk voor verder onderhoud van die taalmodellen.

Referenties

In deze blog is op een aantal plaatsen verwezen naar publicaties. Naast die publicaties zijn er ook andere publicaties gebruikt bij het maken van deze blog. Ze zijn hieronder genoemd.

Bozkurt, A. (2023). Generative AI, synthetic contents, open educational resources (OER), and open educational practices (OEP): A new front in the openness landscape. Open Praxis15(3), 178-184. https://doi.org/10.55982/openpraxis.15.3.579

Dwivedi, Y. K., Kshetri, N., Hughes, L., Slade, E. L., Jeyaraj, A., Kar, A. K., Baabdullah, A. M., Koohang, A., Raghavan, V., Ahuja, M., Albanna, H., Albashrawi, M. A., Al-Busaidi, A. S., Balakrishnan, J., Barlette, Y., Basu, S., Bose, I., Brooks, L., Buhalis, D., … Wright, R. (2023). Opinion paper: “So what if ChatGPT wrote it?” multidisciplinary perspectives on opportunities, challenges and implications of generative conversational AI for research, practice and policy. International Journal of Information Management71, 102642. https://doi.org/10.1016/j.ijinfomgt.2023.102642

Kasneci, E., Seßler, K., Küchemann, S., Bannert, M., Dementieva, D., Fischer, F., Gasser, U., Groh, G., Günnemann, S., Hüllermeier, E., Krusche, S., Kutyniok, G., Michaeli, T., Nerdel, C., Pfeffer, J., Poquet, O., Sailer, M., Schmidt, A., Seidel, T., … Kasneci, G. (2023). ChatGPT for good? On opportunities and challenges of large language models for education. Learning and Individual Differences, 103, 102274. https://doi.org/10.35542/osf.io/5er8f

Kimmons, R., & Irvine, J. (2023). Future directions in OER. Distributed Learning Ecosystems, 183-199. https://doi.org/10.1007/978-3-658-38703-7_10

Kukulska-Hulme, A., Bossu, C., Charitonos, K., Coughlan, T., Deacon, A., Deane, N., Ferguson, R., Herodotou, C., Huang, C-W., Mayisela, T., Rets, I., Sargent, J., Scanlon, E., Small, J., Walji, S., Weller, M., & Whitelock, D. (2023). Innovating Pedagogy 2023: Open University Innovation Report 11. Milton Keynes: The Open University. https://prismic-io.s3.amazonaws.com/ou-iet/4acfab6d-4e5c-4bbd-9bda-4f15242652f2_Innovating+Pedagogy+2023.pdf

Lalonde, C. (6 maart 2023). ChatGPT and open education. BCcampus. https://bccampus.ca/2023/03/06/chatgpt-and-open-education/

Nicolaas, Y. S. (27 juli 2023). Het is tijd om van onze techno-angst af te komen. HUMAN. https://www.human.nl/het-filosofisch-kwintet/interviews/2023/marleen-stikker.html

OER Africa. (28 juli 2023). Three ways artificial intelligence could change how we use open educational resourceshttps://www.oerafrica.org/content/three-ways-artificial-intelligence-could-change-how-we-use-open-educational-resources

Pelletier, K., Robert, J., Muscanell, N., McCormack, M., Reeves, J., Arbino, N., & Grajek, S. (2023). 2023 EDUCAUSE Horizon Report, Teaching and Learning Edition (Boulder, CO: EDUCAUSE, 2023). https://library.educause.edu/-/media/files/library/2023/4/2023hrteachinglearning.pdf?la=en&hash=195420BF5A2F09991379CBE68858EF10D7088AF5

Schuwer, R., & Baas, M. (2023). Reuse of OER, a Process Model Approach. In D. Otto, G. Scharnberg, M. Kerres, & O. Zawacki-Richter (Eds.), Distributed learning ecosystems: Concepts, resources, and repositories (p. 117–137). Springer Nature. DOI: https://doi.org/10.1007/978-3-658-38703-7_7

Stacey, P. (11 augustus 2023). AI from an open perspective. paulstacey.global. https://paulstacey.global/blog/ai-from-an-open-perspective

Van Wyk, M. M., Adarkwah, M. A., & Amponsah, S. (2023). Why all the hype about ChatGPT? Academics’ views of a chat-based conversational learning strategy at an open distance E-Learning institution. Open Praxis15(3), 214-225. https://doi.org/10.55982/openpraxis.15.3.563

Walsh, K. (18 augustus 2023). Understanding CC Licenses and Generative AI. Creative Commons. https://creativecommons.org/2023/08/18/understanding-cc-licenses-and-generative-ai/

Wiley, D. (5 juli 2023). Generative Textbooks. Improving learning. https://opencontent.org/blog/archives/7238

Wiley, D. (6 juli 2023). Generative Textbooks – A Brief Example. Improving learning. https://opencontent.org/blog/archives/7251

Yan, L., Sha, L., Zhao, L., Li, Y., Martinez‐Maldonado, R., Chen, G., Li, X., Jin, Y., & Gašević, D. (2023). Practical and ethical challenges of large language models in education: A systematic scoping review. British Journal of Educational Technologyhttps://doi.org/10.1111/bjet.13370

ChatGPT en open leermaterialen


Nadat eind november op de blog van OpenAI het bericht van de lancering van versie 3.5 van hun chatbot ChatGPT verscheen, ontstond er een lawine van publicaties, waarbij ook Een Vandaag er aandacht aan wijdde. De sentimenten die uit al die berichten spreken waar het de potentiële invloed op het onderwijs betreft vind ik vergelijkbaar met de MOOC-hype rond 2012:

In deze blog deel ik mijn gedachten over de potentiële rol van ChatGPT bij werken met open leermaterialen. Achtereenvolgens beschrijf ik mijn eerste indrukken, een eerste experiment en (ethische) overwegingen die bij gebruik van deze tool zouden moeten worden meegenomen.

Eerste indrukken

Uit de vele berichten en ook uit eigen experimenten met de tool haalde ik al een aantal plus- en minpunten:

  • + De tool is erg goed in samenvatten en opschonen van teksten. Een zelf geschreven Engelstalige publicatie wist de tool zodanig te herformuleren dat het aantal woorden met 20% werd verminderd, zonder verlies aan informatie. Handig bij het schrijven van papers waar een limiet aan het aantal woorden zit.
  • + De tool is goed in het opzetten van een cursusstructuur. Barend Last heeft hier een mooi stappenplan voor geschreven.
  • +/- De tool is gebaseerd op bronnen uit 2021 of eerder. De meest recente inzichten zijn dus niet meegenomen.
  • De tool is slecht in referenties, waardoor bronnen waarop een gegenereerd resultaat is gebaseerd onduidelijk blijven. Zelfs expliciet vragen naar referenties in de opdracht aan de tool levert een slecht resultaat op, zoals ik verderop zal illustreren.
  • Het resultaat is zeker niet 100% accuraat, tot zelfs volkomen onzin. Ik had de opdracht gegeven een biografie over mezelf te schrijven en het resultaat was een prachtig verhaal over een kunstschilder uit de 19e eeuw als naamgenoot, onder meer beroemd door een portret van Koningin Emma uit 1880, eigendom van het Rijksmuseum. Door deze details leverde eigen naspeurwerk op dat dit volkomen uit de kunstmatige duim was gezogen.

Een eerste experiment met open leermaterialen: remix

Omdat ChatGPT goed is in het opzetten van een cursusstructuur wilde ik ervaren hoe goed de tool ondersteunt bij het opzetten en invullen van een open cursus. Meer specifiek was ik benieuwd naar de prestaties bij remix van diverse open bronnen tot een nieuwe open cursus. Deze situatie komt veelvuldig voor in het onderwijs, waar aanpassen van het leermateriaal aan de lokale situatie vaak gewenst is.

In mijn experiment koos ik voor een cursus over de vergelijking van Pell. Daarbij had ik de volgende overwegingen:

  • Het onderwerp komt niet voor in een basiscursus wiskunde. Mijn verwachting is dat er daarom minder open bronnen voor beschikbaar zijn dan voor een meer basic onderwerp (zoals kwadratische vergelijkingen). Dit maakt de potentiële meerwaarde van gebruik van deze tool groter.
  • Ik ben bekend met het onderwerp (mijn afstudeerscriptie voor mijn wiskundestudie ging hierover), waardoor ik de kwaliteit van het door de tool gegenereerde resultaat goed kan inschatten.
  • Het onderwerp is niet afhankelijk van aanwezigheid van recente bronnen.

Omdat het mij bij dit experiment primair ging over de kwaliteit van de inhoud van het resultaat en de mate van openheid van de gebruikte bronnen heb ik geen aandacht besteed aan formuleren van leerdoelen of te gebruiken didactische werkvormen.

Ik gaf de volgende opdracht:

Create a course about Pell’s equation including references. Only use references with a creative commons license.

Dit gaf het volgende resultaat:

Op het eerste gezicht ziet dit er heel behoorlijk uit en brengt het me op meer ideeën dan ik aanvankelijk had. Wanneer ik zelf zo’n cursus zou maken zou ik bijvoorbeeld niet de link met cryptografie hebben gelegd.

Wat betreft gebruik van open bronnen is de quote aan het einde opvallend:

Please note that all the references I provided have a creative commons license, please verify and double check before using it for your course.

Checken van de referenties gaf als resultaat:

  • Referenties 1 en 3 bestaan niet: de links geven een 404-melding en Googlen op de titels en auteurs geven ook geen resultaat.
  • Referenties 2 en 5 hebben dezelfde URL, maar verschillende titels. De URL verwijst naar een semi-open artikel, niet gepubliceerd onder een Creative Commons licentie, over een totaal ander onderwerp. Hetzelfde geldt ook voor referentie 4.

Soortgelijke vervolgopdrachten om per hoofdstuk de inhoud te genereren gaf soortgelijke resultaten: behoorlijke inhoud, maar waardeloze referenties, die geen van alle onder een Creative Commons licentie zijn gepubliceerd.

Conclusie van dit eerste experiment: omdat niet duidelijk is welke bronnen daadwerkelijk gebruikt zijn, kan een eindresultaat ook niet onder een open licentie worden gepubliceerd. De meerwaarde van ChatGPT voor creatie van open leermateriaal via remixen is hierdoor niet aanwezig.

(Ethische) overwegingen bij gebruik van ChatGPT

Meerdere publicaties bevatten kritische vragen over gebruik van deze tool. Een aantal van deze vragen is meer generiek voor inzet van producten van Big Tech in het onderwijs: het gevaar van monopolisering en daarmee te grote invloed op (publiek) onderwijs. Meer specifiek voor inzetten van dergelijke, op grote dataverzamelingen gebaseerde, AI-tools: de onbekendheid met van welke bronnen de data afkomstig zijn en daarmee het risico van vertekening (bias) in de resultaten en het forse energieverbruik dat nodig is om de achterliggende taalmodellen op te bouwen en continu te verrijken. Deze blog van de Nijmeegse hoogleraar Iris van Rooij bevat een prima kritische reflectie.

De onbekendheid van gebruikte bronnen en het onvermogen om bronnen met een open licentie te identificeren zijn voor mij de grootste drempels om deze tool in te zetten bij creatie van open leermateriaal. Mogelijk dat dit in komende versies van ChatGPT verbeterd wordt, of dat alternatieve tools hier beter mee om kunnen gaan, maar voor nu maakt dit de tool voor deze taak ongeschikt.

Een paar weken geleden werd een Professional-versie aangekondigd, waarschijnlijk met een prijs van $42/maand. Dat roept ook de vraag op of en hoelang de gratis versie nog beschikbaar blijft.

Tenslotte: ik verwacht dat ChatGPT en soortgenoten uiteindelijk zullen evolueren naar tools die goed bruikbaar zijn in bepaalde situaties voor specifieke taken. Dat vereist wellicht ook aanpassingen in onderwijsprocessen. Kortom: evolutie en geen revolutie, net als bij de MOOC’s.