AFP or licensors

AI-systemen "trainen" met materiaal van nieuwssites? Steeds meer mediabedrijven sputteren tegen

Om AI-systemen te "trainen" trekken techbedrijven als Google en OpenAI vaak naar nieuwssites om data te vergaren. Steeds meer mediabedrijven verzetten zich: CNN, The Washington Post en The Guardian hebben OpenAI al de toegang tot hun materiaal ontzegd. Trendwatcher technologie en innovatie Laurence Van Elegem doet de situatie uit de doeken.

Radio 1, Maxine Rappé

za 02 mrt 07:55

Elke week duikt onze podcast "Het uur van de waarheid" in de wereld van online bedrog, desinformatie en misleiding. Ook dit onderwerp komt uit de podcast. Alle afleveringen vind je hier.

Een Aziatische dame die door een stad loopt of een dansend 3D-konijn: Sora, de nieuwe dienst van OpenAI, maakt het mogelijk om op basis van tekst video’s te genereren. Die beelden deden heel wat monden openvallen.

Maar na verwondering kwam ontnuchtering. Velen vragen zich af wat dit betekent voor de toekomst. Trendwatcher technologie en innovatie Laurence Van Elegem kijkt niet enkel naar de toekomst, ze stelt zich ook vragen bij het bronmateriaal dat dergelijke diensten gebruiken.

Technologie & Wetenschap

Nieuwe stap in wereld van AI: bedrijf achter ChatGPT lanceert tool die tekst in video omzet

vr 16 feb 17:05

Of het nu om gegenereerde video zoals bij Sora of tekst zoals bij ChatGPT gaat, bij de ontwikkeling van de taalmodellen van AI-bots is een hele hoop data nodig. Waar baseren AI-systemen zich op om te "leren"?

(Geblokkeerde) spinnen

De data die nodig zijn om taalmodellen op te voeden, worden uit verschillende hoeken van het internet verzameld. Een van die hoeken is de mediawereld.

Om die data te vergaren, gebruiken bedrijven als Google en OpenAI "crawlers", ook wel "spiders" genoemd. Dat zijn stukjes software die het internet "rondkruipen" op zoek naar - al dan niet nieuwe - internetpagina’s. Met de informatie die de crawlers verzamelen, kunnen techbedrijven hun AI-gestuurde chatbots "trainen". Gemini in het geval van Google of ChatGPT in het geval van OpenAI.

Mogen bedrijven journalistieke stukken zomaar als bronmateriaal gebruiken? Steeds meer mediabedrijven lijken ten strijde te trekken.

Er zijn ook mediabedrijven die zich erbij neerleggen en samenwerkingen sluiten

Laurence Van Elegem, trendwatcher technologie en innovatie

"Er zijn verschillende soorten reacties", zegt Van Elegem in "Het uur van de waarheid" op Radio 1. "Mediabedrijven hebben vaak een gespannen relatie met bedrijven als OpenAI." Zo hebben CNN, The Washington Post en The Guardian OpenAI de toegang tot hun inhoud ontzegd door hun crawlers te blokkeren.

Die bedrijven zijn niet de enige. Uit onderzoek van het Reuters Instituut blijkt dat 48 procent van de meest gebruikte nieuwswebsites in 10 landen de crawlers van OpenAI hadden geblokkeerd tegen het einde van 2023. Een kleiner aantal, 24 procent, blokkeerde ook de AI-crawler van Google. Andere mediagiganten gaan zelfs nog een stapje verder. The New York Times heeft effectief een rechtszaak aangespannen tegen OpenAI.

"Er zijn ook mediabedrijven die zich erbij neerleggen en samenwerkingen afsluiten", zegt Van Elegem. Semafor is er een van: de nieuwssite sloot een deal met Microsoft. In ruil voor hun data, worden ze betaald.

Zo valt het medialandschap momenteel uiteen in twee strekkingen. "De ene strekking zegt 'nee', de andere strekking beseft dat het niet kan tegengehouden worden. Dus die willen ervoor betaald worden."

In de verdediging

De ontevredenheid van de mediabedrijven heeft te maken met de manier waarop met copyright en intellectuele eigendom wordt omgegaan. Daarnaast groeit ook het besef dat een systeem als ChatGPT onvermijdelijk ogen van de traditionele media zullen weghouden. Als je je actua-vraag gewoon aan een chatsysteem kunt stellen, surf je dan nog naar een nieuwswebsite? Dat kan nefast zijn voor de advertentie-inkomsten.

Het zal soms moeilijk worden om het onderscheid te maken tussen echt en niet echt

Laurence Van Elegem, trendwatcher technologie en innovatie

De komst van AI-gestuurde technologie heeft ook gevolgen voor het vak op zich. "Het zal voor journalisten heel moeilijk worden", voorspelt Elegem. "Het gevaar bestaat dat er veel valse content op internet zal komen te staan. Het zal soms moeilijk zijn om het onderscheid te maken tussen echt en niet echt."

Dat kan een overweldigend effect hebben: de snelheid waarmee AI-gegenereerde inhoud wordt gelanceerd, is niet de snelheid waarmee journalisten het kunnen factchecken. Denk maar aan het AI-gegenereerde beeld van een "hippe" paus Fransiscus in een witte jas. Dat ging al snel viraal, en heel wat mensen waren geneigd het beeld voor waar aan te nemen.

BEKIJK - Het AI-gegenereerde beeld van Paus Franciscus in een witte pufferjas:

Verenigde Staten

Van Taylor Swift over Celine Van Ouytsel tot Emma Watson: "deepnudes" overspoelen internet (en niet alleen op X)

Update di 30 jan 06:25

Om dergelijke situaties tegen te gaan, zullen techbedrijven volgens Van Elegem grenzen moeten stellen aan wat mogelijk is. "Bedrijven denken eraan om te werken met een watermerk (een teken dat aan een beeld wordt toegevoegd, red.), zodat duidelijk is of iets echt of niet echt is."

"De Amerikaanse Federal Trade Commission is ook aan het bekijken om echte mensen te blokkeren in fake video’s." Een video maken met Tayler Swift in de hoofdrol, zou dan niet meer mogelijk zijn.

Al ligt de verantwoordelijkheid niet enkel bij de bedrijven. Zowel de "gewone" burger als de journalist moet kritisch blijven, besluit Van Elegem.

AI-systemen "trainen" met materiaal van nieuwssites? Steeds meer mediabedrijven sputteren tegen

Nieuwe stap in wereld van AI: bedrijf achter ChatGPT lanceert tool die tekst in video omzet

(Geblokkeerde) spinnen

In de verdediging

Van Taylor Swift over Celine Van Ouytsel tot Emma Watson: "deepnudes" overspoelen internet (en niet alleen op X)

Nederlands bedrijf zou Rusland toegang tot het internet kunnen ontzeggen

Opgelost: eindelijk duidelijk hoe baleinwalvissen kunnen "zingen" zonder te verdrinken

"Looksmaxxing" is nieuwe trend op TikTok: jonge mannen delen tips om het maximale uit je uiterlijk te halen

Meest gelezen

Binnenkort meldingsplicht voor dodelijke schimmel Candida auris, die ook bij ons meer voorkomt

Man uit Blankenberge verliest meer dan 330.000 euro aan oplichters

Je rijbewijs verliezen omdat je als fietser of voetganger een overtreding begaat: kan dat zomaar?

Federaal parket neemt dossier vermoorde Belgische vrouw en haar vermiste man op Tenerife in handen

Vaarwel Barbiecore, hallo ‘Tenniscore’: hoe actrice Zendaya de modewereld in tennisrokjes en zweetbanden hult

Bejaard koppel uit Houthalen-Helchteren verliest 3.800 euro door phishing, maar krijgt deel terug dankzij de politie

Sadiq Khan of Susan Hall, wie wordt burgemeester van Londen? "Spannend tot op het laatste moment"

Vijf mogelijke spionageschepen in halfjaar tijd gespot voor onze kust

Rusland schrijft arrestatiebevel uit tegen Oekraïense president Zelenski

“Schrijfkwaliteit meten kan niet meer”: hoe AI onze universiteiten dwingt de masterproef te herdenken