AI-modellen die zijn getraind met door AI gegenereerde inhoud leveren onbruikbare resultaten op

AI-modellen die zijn getraind op basis van door AI gegenereerde inhoud kunnen leiden tot modelcrashes, blijkt uit een onderzoek van de Universiteit van Oxford. De opeenstapeling van fouten en misvattingen in door AI gegenereerde inhoud van de vorige generatie leidt tot onbruikbare resultaten.

Grote AI-bedrijven kopen enorme hoeveelheden door mensen gegenereerde gegevens om hun AI-modellen te trainen. Deze gegevens zijn eindig en het internet wordt langzaam overspoeld met door AI gegenereerde inhoud. Hoe moeten AI-modellen in de toekomst worden getraind, wanneer het internet wordt gedomineerd door door AI gegenereerde gegevens? Onderzoekers van de Universiteit van Oxford publiceerden onlangs een onderzoekspaper in Nature waarin wordt geprobeerd deze vraag te beantwoorden.

Uit onderzoek blijkt dat algoritmisch gegenereerde inhoud kan leiden tot een zogenaamde ineenstorting van het model, waarbij nieuwe AI-modellen niet langer bruikbare resultaten kunnen genereren. Het onderzoek werd geleid door Ilia Shumailov, een computerwetenschapper aan de Universiteit van Oxford. Het project werd uitgevoerd in samenwerking met collega’s van andere academische instellingen.

Door AI gegenereerde trainingsgegevens

In het onderzoeksartikel getiteld ‘AI-modellen crashen wanneer ze worden getraind op recursief gegenereerde gegevens’Onderzoekers willen bepalen of de proliferatie van algoritmisch gegenereerde webinhoud grote taalmodellen minder bruikbaar kan maken.

Hoe kan ik LLM debuggen? Nog een LLM volgen

Ontwikkelaars gebruiken vaak webpagina’s om hun eigen Grote taalmodellen (LLM) om te trainen. In een wereld waarin door AI gegenereerde inhoud geleidelijk de overhand neemt, staat het internet vol met door AI gegenereerde informatie. Die inhoud moet in de toekomst worden gebruikt als trainingsgegevens voor LLM’s.

Instorting van het model

Het onderzoeksartikel suggereert dat een opeenstapeling van fouten en misverstanden uit eerdere generaties modellen ervoor zou kunnen zorgen dat nieuwe AI-modellen hun nauwkeurigheid verliezen of zelfs ‘crashen’.

LLM’s zoeken hallucinaties in LLM: “vuur met vuur bestrijden”

Technologiebedrijven gebruiken al een techniek waarbij door AI gegenereerde inhoud van een ‘watermerk’ wordt voorzien, zodat deze kan worden uitgesloten van trainingsdatasets. De daarmee gepaard gaande coördinatie tussen technologiebedrijven vormt een grote uitdaging voor deze oplossing, waardoor deze waarschijnlijk commercieel niet levensvatbaar is. Volgens de conclusie van het onderzoek moeten er nieuwe maatregelen worden genomen om inhoud van hoge kwaliteit beschikbaar te houden voor AI-ontwikkelingsprojecten.

Door AI gegenereerde trainingsgegevens

Hoe kan ik LLM debuggen? Nog een LLM volgen

Instorting van het model

LLM’s zoeken hallucinaties in LLM: “vuur met vuur bestrijden”

Leave a Reply Cancel reply