AFP or licensors

AI-systemen "trainen" met materiaal van nieuwssites? Steeds meer mediabedrijven sputteren tegen

Om AI-systemen te "trainen" trekken techbedrijven als Google en OpenAI vaak naar nieuwssites om data te vergaren. Steeds meer mediabedrijven verzetten zich: CNN, The Washington Post en The Guardian hebben OpenAI al de toegang tot hun materiaal ontzegd. Trendwatcher technologie en innovatie Laurence Van Elegem doet de situatie uit de doeken.

Elke week duikt onze podcast "Het uur van de waarheid" in de wereld van online bedrog, desinformatie en misleiding. Ook dit onderwerp komt uit de podcast. Alle afleveringen vind je hier.

Een Aziatische dame die door een stad loopt of een dansend 3D-konijn: Sora, de nieuwe dienst van OpenAI, maakt het mogelijk om op basis van tekst video’s te genereren. Die beelden deden heel wat monden openvallen.

Maar na verwondering kwam ontnuchtering. Velen vragen zich af wat dit betekent voor de toekomst. Trendwatcher technologie en innovatie Laurence Van Elegem kijkt niet enkel naar de toekomst, ze stelt zich ook vragen bij het bronmateriaal dat dergelijke diensten gebruiken.

Of het nu om gegenereerde video zoals bij Sora of tekst zoals bij ChatGPT gaat, bij de ontwikkeling van de taalmodellen van AI-bots is een hele hoop data nodig. Waar baseren AI-systemen zich op om te "leren"?

(Geblokkeerde) spinnen

De data die nodig zijn om taalmodellen op te voeden, worden uit verschillende hoeken van het internet verzameld. Een van die hoeken is de mediawereld.

Om die data te vergaren, gebruiken bedrijven als Google en OpenAI "crawlers", ook wel "spiders" genoemd. Dat zijn stukjes software die het internet "rondkruipen" op zoek naar - al dan niet nieuwe - internetpagina’s. Met de informatie die de crawlers verzamelen, kunnen techbedrijven hun AI-gestuurde chatbots "trainen". Gemini in het geval van Google of ChatGPT in het geval van OpenAI.

Mogen bedrijven journalistieke stukken zomaar als bronmateriaal gebruiken? Steeds meer mediabedrijven lijken ten strijde te trekken.

Er zijn ook mediabedrijven die zich erbij neerleggen en samenwerkingen sluiten
Laurence Van Elegem, trendwatcher technologie en innovatie

"Er zijn verschillende soorten reacties", zegt Van Elegem in "Het uur van de waarheid" op Radio 1. "Mediabedrijven hebben vaak een gespannen relatie met bedrijven als OpenAI." Zo hebben CNN, The Washington Post en The Guardian OpenAI de toegang tot hun inhoud ontzegd door hun crawlers te blokkeren.

Die bedrijven zijn niet de enige. Uit onderzoek van het Reuters Instituut blijkt dat 48 procent van de meest gebruikte nieuwswebsites in 10 landen de crawlers van OpenAI hadden geblokkeerd tegen het einde van 2023. Een kleiner aantal, 24 procent, blokkeerde ook de AI-crawler van Google. Andere mediagiganten gaan zelfs nog een stapje verder. The New York Times heeft effectief een rechtszaak aangespannen tegen OpenAI.

"Er zijn ook mediabedrijven die zich erbij neerleggen en samenwerkingen afsluiten", zegt Van Elegem. Semafor is er een van: de nieuwssite sloot een deal met Microsoft. In ruil voor hun data, worden ze betaald.

Zo valt het medialandschap momenteel uiteen in twee strekkingen. "De ene strekking zegt 'nee', de andere strekking beseft dat het niet kan tegengehouden worden. Dus die willen ervoor betaald worden."

In de verdediging

De ontevredenheid van de mediabedrijven heeft te maken met de manier waarop met copyright en intellectuele eigendom wordt omgegaan. Daarnaast groeit ook het besef dat een systeem als ChatGPT onvermijdelijk ogen van de traditionele media zullen weghouden. Als je je actua-vraag gewoon aan een chatsysteem kunt stellen, surf je dan nog naar een nieuwswebsite? Dat kan nefast zijn voor de advertentie-inkomsten.

Het zal soms moeilijk worden om het onderscheid te maken tussen echt en niet echt
Laurence Van Elegem, trendwatcher technologie en innovatie

De komst van AI-gestuurde technologie heeft ook gevolgen voor het vak op zich. "Het zal voor journalisten heel moeilijk worden", voorspelt Elegem. "Het gevaar bestaat dat er veel valse content op internet zal komen te staan. Het zal soms moeilijk zijn om het onderscheid te maken tussen echt en niet echt."

Dat kan een overweldigend effect hebben: de snelheid waarmee AI-gegenereerde inhoud wordt gelanceerd, is niet de snelheid waarmee journalisten het kunnen factchecken. Denk maar aan het AI-gegenereerde beeld van een "hippe" paus Fransiscus in een witte jas. Dat ging al snel viraal, en heel wat mensen waren geneigd het beeld voor waar aan te nemen.

    BEKIJK - Het AI-gegenereerde beeld van Paus Franciscus in een witte pufferjas:

Om dergelijke situaties tegen te gaan, zullen techbedrijven volgens Van Elegem grenzen moeten stellen aan wat mogelijk is. "Bedrijven denken eraan om te werken met een watermerk (een teken dat aan een beeld wordt toegevoegd, red.), zodat duidelijk is of iets echt of niet echt is."

"De Amerikaanse Federal Trade Commission is ook aan het bekijken om echte mensen te blokkeren in fake video’s." Een video maken met Tayler Swift in de hoofdrol, zou dan niet meer mogelijk zijn.

Al ligt de verantwoordelijkheid niet enkel bij de bedrijven. Zowel de "gewone" burger als de journalist moet kritisch blijven, besluit Van Elegem.

Meest gelezen