Hacker planter falske minder i ChatGPT for at stjæle brugerdata

E-mails, dokumenter og andet upålideligt indhold kan plante skadelige minder i ChatGPT, ser det ud til.

Lige nu læser andre

Da sikkerhedsforsker Johann Rehberger for nylig rapporterede en sårbarhed i ChatGPT, der gjorde det muligt for hackere at gemme falsk information og ondsindede instruktioner i en brugers langtidshukommelse, lukkede OpenAI hurtigt undersøgelsen.

De betragtede fejlen som et sikkerhedsmæssigt problem, men ikke nødvendigvis som en teknisk sikkerhedsrisiko. Det skriver mediet Ars Technica.

Rehberger gjorde, hvad gode forskere gør: Han skabte et proof-of-concept-angreb, der udnyttede sårbarheden til at udtrække alle brugerens input kontinuerligt. OpenAI tog dette til efterretning og udgav en delvis løsning tidligere på måneden.

Læs også

Manipulation af hukommelsen

Sårbarheden misbrugte ChatGPT’s langtidshukommelse, som er en funktion, OpenAI begyndte at teste i februar og udbredte mere bredt i september. Hukommelsesfunktionen gemmer information fra tidligere samtaler og bruger det som kontekst i fremtidige samtaler.

På den måde kan ChatGPT huske detaljer som en brugers alder, køn, filosofiske overbevisninger og meget mere, så disse oplysninger ikke skal indtastes i hver samtale.

Inden for tre måneder efter funktionens udrulning opdagede Rehberger, at minder kunne oprettes og permanent gemmes gennem indirekte prompt-injektion. Her er der tale om en AI-udnyttelse, hvor en sprogmodel følger instruktioner fra upålideligt indhold som e-mails, blogindlæg eller dokumenter.

Rehberger demonstrerede, hvordan han kunne narre ChatGPT til at tro, at en målrettet bruger var 102 år gammel, boede i Matrix og insisterede på, at jorden var flad. Disse falske minder kunne plantes ved at gemme filer i Google Drive, Microsoft OneDrive, uploade billeder eller besøge et website som Bing – alt sammen noget, der kunne udnyttes af en ondsindet angriber.

Rehberger rapporterede fundet til OpenAI i maj, men virksomheden lukkede rapporten samme måned. En måned senere indsendte forskeren en ny oplysning med en PoC, der fik ChatGPT-appen til macOS til at sende en nøjagtig kopi af al brugerinput og ChatGPT-output til en server efter hans valg.

Alt, hvad målet skulle gøre, var at få ChatGPT til at se et weblink med et ondsindet billede. Herefter blev alt input og output sendt til hackerens hjemmeside.

“Det, der er virkelig interessant, er, at dette nu er vedvarende. Prompt-injektionen indsatte en hukommelse i ChatGPT’s langtidshukommelse. Når du starter en ny samtale, udtrækker den stadig data,” sagde Rehberger i en demo.

Angrebet er ikke muligt via ChatGPT’s webinterface, takket være en API, som OpenAI udrullede sidste år.

Mens OpenAI har introduceret en løsning, der forhindrer, at minder misbruges som en eksfiltrationsvektor, kan upålideligt indhold stadig udføre prompt-injektioner, der får hukommelsen til at gemme falsk information plantet af en angriber.

Brugere af sprogmodeller, der ønsker at forhindre denne form for angreb, bør være opmærksomme på output, der angiver, at en ny hukommelse er blevet tilføjet. De bør også regelmæssigt gennemgå gemte minder for at sikre, at der ikke er plantet falske oplysninger.

OpenAI giver vejledning til at administrere hukommelsen og de specifikke minder, der er gemt i det. Repræsentanter fra virksomheden har ikke svaret på en e-mail med spørgsmål om deres indsats for at forhindre andre angreb, der planter falske minder, skriver Ars Technica.