Marco Figueroa, der er ekspert hos Mozilla, afslørede i en rapport, at hackere kan manipulere avancerede sprogmodeller som OpenAI's GPT-4o ved at udnytte sikkerhedsmæssige svagheder.
Tricket består i at indsætte ondsindede instruktioner i flere trin eller ved at kode dem i hexadecimal. Denne teknik gør det muligt at omgå sikkerhedsfiltrene og dermed skabe sårbarheder. Det skriver mediet Le Big Data.
GPT-4o er en af de mest sofistikerede sprogmodeller. Den er hurtig og multifunktionel og kan behandle forskellige typer input på adskillige sprog. Alligevel virker GPT-4o primitiv, når det kommer til at håndtere brugergenereret indhold. Omgåelsesteknikker som Figueroas fremhæver vigtige svagheder.
Hvordan narrer hackerne GPT-4o?
Figueroas metode er smart: han koder sine ondsindede instruktioner i hexadecimal, der er et sprog bestående af tal og bogstaver. Modellen følger derefter instruktionerne som normale uden at erkende deres farlighed.
Resultatet er, at GPT-4o ender med at afkode beskeden og udføre potentielt skadelige opgaver. Ved at bruge et 'leet'-sprog beder han endda om et '3xploit' i stedet for 'exploit' for at omgå de blokerede nøgleord.
For at sikre sikkerheden analyserer GPT-4o input for mistænkelige ord og udtryk. Men ifølge Figueroa viser disse filtre sig at være simple og sårbare. En let ændret formulering er nok til at narre modellen.
Som følge heraf fortolker sprogmodellerne instruktionerne trin for trin uden at forstå deres overordnede formål. Denne begrænsning gør dem tilbøjelige til at falde i velkonstruerede fælder.
Figueroa peger på et problem med kortsigtethed i GPT-4o. Modellen analyserer hver instruktion isoleret uden at vurdere de samlede effekter af tidligere trin. En bredere analyse af konteksten kunne ellers blokere disse skadelige sekvenser. I mangel af en sådan mekanisme kan ondsindede aktører udnytte denne opdeling til at manipulere modellen.
Anthropic er et eksempel på styrket sikkerhed
I denne sammenhæng bemærker Figueroa forskellen i sikkerhed mellem GPT-4o og modellerne fra Anthropic. Denne virksomhed har opbygget et dobbelt sikkerhedslag med både et inputfilter og et responsfilter. Denne struktur gør det meget vanskeligere at omgå sikkerheden. For Figueroa har OpenAI prioriteret innovation på bekostning af sikkerheden.
OpenAI er nødt til at tage højde for sine modellers begrænsninger for at undgå nye sårbarheder. At sikre sprogmodeller er afgørende for at beskytte brugerne og forhindre ondsindet brug. Indtil videre rejser denne hurtige injektion spørgsmålet om sprogmodellernes fremtid i en kontekst med styrket sikkerhed.