OpenAI har ved 'en fejl' slettet potentielle beviser i retssag

Nicolai Busekist

2 timer siden

|

23/11/2024
AI
Foto: Shutterstock
Foto: Shutterstock
OpenAI bliver sagsøgt af New York Times og Daily News, og nu er der kommet interessant nyt frem om retssagen.

Mest læste i dag

Advokater for The New York Times og Daily News, som har anlagt sag mod OpenAI for angiveligt at have brugt deres materiale til at træne sine AI-modeller uden tilladelse, hævder, at OpenAI-udviklere ved en fejl slettede data, som kunne være relevante for sagen.

Tidligere på efteråret indgik OpenAI en aftale om at stille to virtuelle maskiner til rådighed, så advokaterne for The Times og Daily News kunne søge efter ophavsretsbeskyttet indhold i AI-træningssættene.

Virtuelle maskiner er softwarebaserede computere, som ofte bruges til test, sikkerhedskopiering af data og kørsel af applikationer. I et brev oplyser advokaterne, at de og deres eksperter siden den 1. november har brugt over 150 timer på at gennemgå OpenAIs træningsdata.

Men den 14. november slettede OpenAI-udviklerne al søgedata fra én af de virtuelle maskiner, ifølge brevet, som blev indsendt til den føderale domstol i det sydlige distrikt i New York sent onsdag.

OpenAI forsøgte at gendanne dataene og havde delvis succes. Men fordi mappestrukturen og filnavnene var 'uopretteligt' tabt, kan de gendannede data ikke bruges til at afgøre, hvor de kopierede artikler fra de sagsøgende medier er blevet brugt til at opbygge OpenAIs modeller, står der i brevet.

"De sagsøgende medier har været tvunget til at genskabe deres arbejde fra bunden, hvilket har krævet betydelige arbejdstimer og computerkraft," skriver advokaterne ifølge TechCrunch.

"Medierne fandt først ud af i går, at de gendannede data var ubrugelige, og at en uges arbejde fra eksperter og advokater skal gøres om, hvilket er grunden til, at dette supplerende brev indsendes i dag."

Advokaterne gør det klart, at de ikke har grund til at tro, at sletningen var bevidst. Men de påpeger, at hændelsen viser, at OpenAI 'er bedst positioneret til at søge i sine egne datasæt' efter potentielt krænkende indhold ved brug af deres egne værktøjer.

I denne og lignende sager har OpenAI hævdet, at det er 'fair brug' at træne modeller ved brug af offentligt tilgængelige data, herunder artikler fra The Times og Daily News.

Med andre ord mener OpenAI, at de ikke behøver at indhente licens eller betale for de eksempler, de bruger til at træne modeller som GPT-4, selv når de tjener penge på modellerne.

På trods af dette har OpenAI indgået licensaftaler med flere medieudbydere, herunder Associated Press, Axel Springer (Business Insider), Financial Times, Dotdash Meredith (People) og News Corp.

Vilkårene for disse aftaler er ikke offentliggjort, men det rapporteres, at Dotdash modtager mindst 16 millioner dollars årligt. OpenAI har hverken bekræftet eller afvist, om dets AI-systemer er blevet trænet på specifikt ophavsretsbeskyttet materiale uden tilladelse.