dinsdag 6 juni 2023

ChatGPT en de toekomst van Data Science

Woensdag 31 mei 2023
 
Lezing van Oskar Gstrein over ChatGPT

















Artificial Intelligence
De chatbox ‘ChatGPT’ (gebaseerd op ‘Generative Pre-trained Transformers’ (GPTs) en ook andere vergelijkbare ‘AI Large Language Models’ beheersen in de afgelopen maanden de media.
Van deze nieuwe, baanbrekende mogelijkheden gaat Campus College op Campus Fryslân in de Leeuwarder Beurs vanavond een kijkje achter de schermen geven. 
Interessante vraagstukken die daarbij aan de orde komen, zijn:
  • Waar komt dit soort van technologie vandaan? 
  • Moet 'generatieve Artificiële (kunstmatige) Intelligentie (AI)’ worden gereguleerd? 
  • En welke ethische en maatschappelijke vragen duiken op?
Oskar Gstrein
Spreker daartoe vanavond is Oskar Gstrein, die ons mee neemt in de toekomst van Data Science. 
Gstrein is Assistant Professor bij de ‘Department of Governance and Innovation’ aan de faculteit Campus Fryslân, waar hij ook lid is van het Data Research Centre. 
Daarnaast is hij programmadirecteur van de Bachelor-opleiding ‘Data Science and Society’ bij Campus Fryslân van de Rijksuniversiteit Groningen.

Input > Blackbox > Output
Rond 1956 werd de eerste workshop rond AI georganiseerd. Er werd in die jaren al gedroomd over ‘denkende machines’. Men realiseerde zich toen al dat je daar wel heel veel regels voor nodig hebt.
Het begrip 'Cybernetica' bestond toen ook al wel, als een soort ‘goed stuurmanschap’ aangaande de informatie die het mogelijk maakt om van alles te sturen.
In de 90-er jaren kwam het internet op, en toen was er een verschuiving mogelijk naar het zogenoemde ‘machine learning’.
Gstrein toont ons aan het begin van zijn lezing een heel simpele feedback loop, die begint met input, en dat dan vervolgens via allerhande regels en ingrepen uiteindelijk leidt tot output. 
Hoe meer input je krijgt, hoe moeilijker het is om te weten wat er in de black box tussen input en output allemaal gebeurt om die zichtbare output te krijgen.
Bij het huidige 'machine learning' worden we ook geconfronteerd met die kwestie, omdat we niet weten wat er in de black box allemaal gebeurt. 
Neem bijvoorbeeld de actuele Toeslagenaffaire, die mede het resultaat is van verwerking van persoonsgegevens middels allerlei algoritmes, waarvan achteraf nu niet meer te achterhalen is wat daar nu precies is gebeurd in die black box.

ChatGTP 
ChatGTP is ontwikkeld door OpenAI, en is oorspronkelijke ontwikkeld om gesprekken te creëren, waarbij je niet merkt of/dat de communicatie al dan niet door mensen wordt gedaan. 
Je kunt ChatGTP ook gebruiken om te programmeren
ChatGTP is momenteel razend populair, ondanks het feit dat het maar één van de vele bestaande vormen is. Google heeft er bijvoorbeeld ook één.
ChatGTP is zo belangrijk omdat ze heel veel data hebben en gebruiken.
De effectiviteit lees je af aan de output. We weten echter niet precies hoe het werkt.
Het is een sterk systeem omdat er ook heel veel mensen achter zitten, die grote hoeveelheden feedback verwerken in het systeem, teneinde het systeem zo sterker te maken.
Dit systeem voorspelt eigenlijk niet meer dan alleen maar het naastvolgende woord in de output, dat overigens niet per definitie het meest waarschijnlijke vervolg-woord is.
Bij de output heb je geen idee van welke bronnen ChatGTP gebruik maakt. 
Alleen als je zelf veel weet van de output, kun je beoordelen of de output correct is, of dat het onzin is wat er aan output uit komt.
Dit grote taalmodel (Large Language Model) ChatGTP is overigens de snelst groeiende app, die in een maand tijd van december 2022 tot in januari 2023 verhonderdvoudigde tot honderd miljoen gebruikers.

Risico's 
De verwerkingskracht van ChatGPT verslaat momenteel de logica, en het lijkt of de ontwikkeling gewoon maar door gaat,. Toch zijn er nog heel veel vraagstukken omtrent het systeem. Zo is het bijvoorbeeld nog de vraag hoe het de machtsstructuren in onze samenleving zal beïnvloeden.
De AI-ethicus Timnit Gebru stelde de vraag of dergelijke grote taalmodellen wel wenselijk zijn. Kunnen we bijvoorbeeld de risico’s ervan (van bijvoorbeeld discriminatie) wel aan? En wat is eigenlijk het belang van de output? En is deze ontwikkeling wel wenselijk in tijden van klimaatverandering? 
Trouwens, Google ontsloeg deze ethica, toen zij haar kritische zorgen uitte.
Bij het geautomatiseerd biografieën schrijven blijkt ChatGTP veel fouten te maken. Dat kan leiden tot (ook gevaarlijke) verkeerde informatie over de beschreven personen. Je weet dus eigenlijk nooit waar je aan toe bent met de output van het systeem. En verder hebben we er als gebruiker ook geen zicht op, welke van de door ChatGTP gebruikte brondata juist of fout feitenmateriaal bevat.
Verder zijn er zorgen over de door ChatGTP al dan niet gebruikte databronnen. Het is namelijk niet duidelijk welke data ChatGTP al dan niet bewaart. 
Er is overigens geen juridische basis voor het door dergelijke systemen al dan niet mogen verzamelen van data. Tot zolang profiteren de op dit gebied actief opererende bedrijven hiervan.

Toekomst
Actuele trends op dit gebied zijn onder andere het verschijnsel 'Machine Unlearning', en er wordt gewerkt aan het trainen van dergelijke systemen met weinig data.
Op dit moment is er overigens wel wetgeving in aankomst. Daar houdt onder andere de Europese Unie zich momenteel mee bezig. Vraag is of het bijvoorbeeld moet worden gereguleerd als een aparte categorie, en of het zal worden gekwalificeerd als een ‘hoog risico-systeem’.
Er is al heel veel geld in AI gestopt. De vraag is nu hoe het business model er in de toekomst uit gaat zien. 
Het kost heel veel energie, en is dus heel duur. Wellicht eindigt te zijner tijd derhalve de tijd van het gratis gebruik-tijdperk.

Adviezen
Oskar Gstrein adviseert om ChatGTP voor niet veel meer zaken te gebruiken dan bijvoorbeeld bij het samenvatten van bestaande teksten, en dan ook nog alleen waar het gaat om samen te vatten teksten waarvan je zelf verstand hebt. Zo kun je tenminste enigszins bepalen in hoeverre het zin of onzin is qua output.
Verder vindt hij dat het weinig zin heeft om maar te doen alsof ChatGTP niet bestaat. Studenten 'Data Science' worden toch zeker wel aangemoedigd om er kennis van te nemen, om het te gebruiken, met name om de kwaliteit zelf ook te kunnen beoordelen.
Het systeem wordt als intelligent beschouwd, als de mens – hoe dom ook – niet in de gaten heeft dat hij/zij communiceert met een dergelijk taalsysteem zoals ChatGTP.
Het ChatGTP-systeem heeft trouwens nergens verstand van. Zo weet het systeem bijvoorbeeld al niet of de inhouden van de gebruikte bronnen wel kloppen. Het systeem is eigenlijk voornamelijk op zoek naar het meest voor de hand liggende volgende woord in de output.

Geen opmerkingen: