Undersøgelse viser: OpenAI-modeller har 'memoreret' ophavsretligt beskyttet indhold

Nicolai Busekist

6 dage siden

|

08/04/2025
AI
Foto: Shutterstock
Foto: Shutterstock
En ny undersøgelse ser ud til at give støtte til påstande om, at OpenAI har trænet mindst nogle af sine AI-modeller på ophavsretligt beskyttet indhold.

LIGE NU LÆSER ANDRE OGSÅ

Mest læste i dag

OpenAI er i øjeblikket involveret i retssager anlagt af forfattere, programmører og andre rettighedshavere, som beskylder virksomheden for at have brugt deres værker - bøger, kodebaser osv. - til at udvikle sine modeller uden tilladelse.

OpenAI har længe påberåbt sig et 'fair use'-forsvar, men sagsøgerne i disse sager hævder, at der ikke findes nogen undtagelse i den amerikanske ophavsretslovgivning, der tillader træning på sådanne data.

Undersøgelsen, som er udarbejdet af forskere fra University of Washington, Københavns Universitet og Stanford University, foreslår en ny metode til at identificere træningsdata, der er blevet 'memoreret' af modeller bag en API, som f.eks. OpenAI's.

Modeller er forudsigelsesmaskiner. De trænes på store mængder data og lærer mønstre - det er sådan, de er i stand til at generere essays, billeder og meget mere. De fleste outputs er ikke direkte kopier af dataene, men på grund af den måde, modellerne 'lærer' på, vil nogle outputs uundgåeligt være det.

Modeller til billeder er f.eks. blevet set gengive skærmbilleder fra film, de er blevet trænet på, mens sprogmodeller har kopieret nyhedsartikler næsten ordret. Det skriver mediet TechCrunch.

Undersøgelsens metode baserer sig på ord, som forfatterne kalder 'høj-overraskelsesord' - det vil sige ord, der fremstår som usædvanlige i konteksten af et større tekstkorpus.

For eksempel ville ordet 'radar' i sætningen 'Jack og jeg sad helt stille, mens radaren summede' blive betragtet som et høj-overraskelsesord, da det statistisk set er mindre sandsynligt at blive brugt før ordet 'summede', end ord som 'motor' eller 'radio'.

Forfatterne testede flere OpenAI-modeller, herunder GPT-4 og GPT-3.5, for tegn på memorisering ved at fjerne høj-overraskelsesord fra uddrag af fiktionsbøger og New York Times-artikler og få modellerne til at 'gætte', hvilke ord der var blevet fjernet.

Hvis modellerne gættede korrekt, konkluderede forskerne, at det var sandsynligt, at modellen havde memoreret uddraget under træning.

Ifølge testresultaterne viste GPT-4 tegn på at have memoreret dele af populære fiktionsbøger, herunder bøger i et datasæt med ophavsretligt beskyttede e-bøger kaldet BookMIA. Resultaterne antydede også, at modellen havde memoreret dele af New York Times-artikler - dog i lavere grad.

Abhilasha Ravichander, der er ph.d.-studerende ved University of Washington og medforfatter til undersøgelsen, udtalte til TechCrunch, at resultaterne kaster lys over det 'kontroversielle indhold', modellerne kan være blevet trænet på.

"For at kunne stole på store sprogmodeller har vi brug for modeller, vi kan undersøge og analysere videnskabeligt," sagde Ravichander.

"Vores arbejde sigter mod at give et værktøj til at undersøge store sprogmodeller, men der er et reelt behov for større gennemsigtighed omkring træningsdata i hele økosystemet."

OpenAI har længe talt for færre begrænsninger i forhold til at udvikle modeller med ophavsretligt beskyttet indhold.

Selvom virksomheden har nogle aftaler om indhold og tilbyder fravalgsmekanismer, der giver ophavsretshavere mulighed for at markere indhold, de ikke ønsker brugt til træning, har OpenAI også lobbyet flere regeringer for at få kodificeret 'fair use'-regler i forbindelse med AI-træning.