Dit is hoe kunstmatige intelligentiebedrijven omgaan met privacygevoelige gegevens in de zorgsector

Als je het nieuws over kunstmatige intelligentie (AI) volgt, heb je misschien gehoord dat grote makers van AI-modellen bijna geen data meer hebben: ze hebben bijna geen data meer om AI-modellen te trainen.

Na vrijwel het hele internet afgezocht te hebben om AI-chatbots naar het huidige niveau te brengen, lijkt het moeilijk om meer data te vinden om hun prestaties verder te verbeteren. Er wordt gezocht naar een oplossing in dataproductie via AI-software, waarmee AI-modellen kunnen worden getraind.

Dit type gegevens wordt ‘synthetische gegevens’ genoemd. Sommige deskundigen beschouwen dit echter als een doodlopende weg. Wanneer AI-modellen worden getraind met wat ze zelf produceren, blijft de kwaliteit ervan achteruitgaan.

Een AI-model kan bijvoorbeeld geen echt nieuwe dingen creëren, maar gebruikt in plaats daarvan combinaties van dingen die al eerder zijn gemaakt. Deze beperking zorgt ervoor dat een AI-model dat synthetische gegevens voedt, geen echt nieuwe informatie ontvangt, maar in wezen een variatie is op de trainingsgegevens die eerder werden gevoed.

Niet alle AI-modellen en synthetische data zijn echter gelijk. Er zijn toepassingen waarbij de door AI-software gegenereerde trainingsgegevens zeer waardevol kunnen zijn. We hebben het dan niet over synthetische data die we zien in AI-chatbots, beeldgeneratoren en spraakgeneratoren, maar over kunstmatige data die gebruikt worden om AI-toepassingen te creëren in bijvoorbeeld de zorgsector.

Dit brengt totaal verschillende uitdagingen met zich mee. Bij het ontwikkelen van AI-modellen zijn de zorgen doorgaans beperkt, omdat de data vaak privacygevoelige informatie bevatten. Dit mag niet alleen worden gebruikt om AI-modellen te trainen.

Voor de gezondheidszorg kunnen synthetische data een oplossing bieden voor het trainen van AI-modellen

“Wij werken mee getabelleerde gegevenszegt Wim Kees Janssen, CEO van Syntho, een startup die met AI synthetische data produceert om AI-modellen te trainen. “Dat zijn data in een tabel, die we omzetten naar andere data die de kenmerken heeft van echte data, maar die ‘dat zijn’ geen echte gegevens meer.”

Janssen geeft als voorbeeld het dossier van een patiënt uit een bepaald ziekenhuis. Het bevat veel waardevolle informatie over welke AI-modellen kunnen worden getraind om waardevolle conclusies te trekken en misschien zelfs nieuwe behandelmethoden voor bestaande ziekten.

Het probleem is dat deze gegevens niet zomaar kunnen worden gebruikt en dat de toegang ertoe vaak lang duurt. Syntho neemt die data en zet deze om naar data met dezelfde statistische kenmerken, maar die op geen enkele manier te herleiden zijn naar de personen in de originele dataset.

Analytics- en AI-adviseur Edwin van Unen bij data- en AI-bedrijf SAS

Het klinkt als het veranderen van namen en adressen, maar dat is het niet. “Je kunt anonimiseren op basis van naam en adres, maar er zijn meer variabelen waarmee je de persoon in kwestie snel kunt identificeren”, legt analytics- en kunstmatige intelligentie-consultant Edwin van Unen van data- en kunstmatige intelligentiebedrijf SAS uit.

“Neem bijvoorbeeld de variabelen die interessant zijn voor AI-modellen, zoals leeftijd en lengte. “We synthetiseren ze zo dat ze niet meer in dezelfde combinatie voorkomen, maar dat de hele dataset dezelfde statistische kenmerken behoudt, zodat deze perfect bruikbaar blijft voor dezelfde doeleinden als de originele data.”

Als je je afvraagt hoe Syntho toegang krijgt tot die privacygevoelige gegevens waar niemand buiten ziekenhuizen mee kan werken, dan is dat niet zo vreemd. Uiteraard heeft Janssen daar ook over nagedacht. “Syntho draait altijd lokaal waar de data zich bevinden. Wij geven medewerkers toegang tot onze software, waarmee zij zelf synthetische data kunnen genereren. “Daarom hebben we geen visualisatie of toegang tot de originele Syntho-gegevens.”

Hierdoor kunnen klanten volgens Janssen zelf datasets genereren “en die kunnen uiteraard ook makkelijker buiten ziekenhuizen gebruikt worden, omdat ze geen privacygevoelige data meer bevatten. Het gaat hier om synthetische data bij synthetische patiënten.”

Het testen van de kracht van een AI-model

Het is niet moeilijk om je de voordelen voor te stellen die dit met zich meebrengt. Je kunt hele AI-modellen ontwikkelen met gegevens waar je eigenlijk geen toegang toe hebt. Hierdoor kunnen we een hele nieuwe wereld van mogelijkheden en verbeterpunten identificeren.

Maar de vraag rijst ook: hoe zeker kun je zijn van de resultaten van deze AI-modellen? Ze genereren hun reacties immers op basis van gesynthetiseerde data, en een AI-model is slechts zo goed als de data waarop het is getraind.

“Een model ontdekt patronen op basis van de gegevens die je invoert. Als de gegevens niet goed zijn, krijgt u slechte resultaten. Maar het mooie is dat je dit altijd kunt testen met echte data”, zegt Van Unen. “Het doel is altijd om modellen die zijn getraind met synthetische data te valideren met echte data. Pas dan kun je echt zien of een model goed of slecht werkt en of er nog werk aan de winkel is.”

“Je moet daarom altijd originele data weglaten als je voorspellende modellen traint met synthetische data. Deze originele ‘private data’ worden gebruikt om het model te testen voordat het in de praktijk wordt toegepast”, voegt Janssen toe.

Uiteindelijk is dit ook de grote waarde van synthetische data: het doel ervan is om een nieuw AI-model te helpen ontwikkelen. De unieke waarde is dat je de gesynthetiseerde data tot op zekere hoogte kunt gebruiken als echte data, omdat deze dezelfde kenmerken heeft als de originele dataset.

Pak vooroordelen in een AI-model aan

Deze aanpak heeft als bijkomend voordeel dat het potentiële vooroordelen bij het trainen met synthetische gegevens opspoort en vermindert. En omdat je hier feitelijk met synthetische data werkt, kun je deze ook verfijnen als je de focus van het AI-model wilt verfijnen voordat je deze op de echte dataset vrijgeeft.

“Het begint en eindigt met de originele data. Betrouwbare gegevens zijn belangrijk. Zonder betrouwbare data kun je geen betrouwbaar resultaat verkrijgen”, bevestigt Van Unen.

Dit is hoe kunstmatige intelligentiebedrijven omgaan met privacygevoelige gegevens in de zorgsector

Voor de gezondheidszorg kunnen synthetische data een oplossing bieden voor het trainen van AI-modellen

Het testen van de kracht van een AI-model

Pak vooroordelen in een AI-model aan

LEES OOK: AI zal niet zomaar alle lastige problemen oplossen, zegt Bill Gates

Leave a Reply Cancel reply