Anthropics nye sprogmodel afviser anmodninger om hacking, men også harmløse opgaver.

Lige nu læser andre

OpenAI klar med retssag mod Apple over “begravet” ChatGPT i Siri

Google klar med Claude-udfordrer: Gemini Spark kan styre din Gmail og Docs uden hjælp

Da Anthropic lancerede Claude Opus 4.7 den 16. april, var det største nybrud ikke kodningsevner eller hastighed. Det var en spærre. Modellen er udstyret med et filter, der automatisk afviser anmodninger om offensive cyber-opgaver, og selskabet har samtidig trænet modellens egne offensive evner ned.

“Vi udgiver Opus 4.7 med sikkerhedsforanstaltninger, der automatisk opdager og blokerer anmodninger, som indikerer forbudt eller højrisiko-brug inden for cybersikkerhed,” skriver Anthropic i annonceringen. Selskabet har samtidig “eksperimenteret med tiltag, der differentielt reducerer disse evner” under selve træningen.

To lag af spærringer

Anthropic præciserer ikke offentligt hvilke konkrete anmodninger filteret stopper. Pressemeddelelsen taler bredt om “forbudt eller højrisiko”-brug uden at oplyse hvilke kategorier klassifikatoren er trænet på.

Skellet ligger mellem to indgreb. På træningsniveau er modellens offensive evner skåret ned i forhold til den interne Mythos Preview, som ikke er udgivet. Oven på det kører en realtidsklassifikator, der ifølge selskabet skal stoppe anmodninger om eksempelvis sårbarhedsudnyttelse og udvikling af offensive sikkerhedsværktøjer. Selskabet beskriver tiltagene som et skridt på vejen mod en bredere udgivelse af Mythos-klassen senere.

Læs også

OpenAI Daybreak: Ny AI skal finde sikkerhedshuller før hackerne

Sol døgnet rundt: Google forhandler med SpaceX om AI-datacentre i kredsløb

Verifikationsprogram for sikkerhedsforskere

Anthropic erkender, at filteret rammer en gruppe det ikke bør ramme: sikkerhedsforskere, der har brug for at simulere angreb. Derfor lancerer selskabet samtidig et “Cyber Verification Program”, hvor red-team-folk, pen-testere og sårbarhedsforskere kan ansøge om at få spærringerne lempet.

“Sikkerhedsprofessionelle, der ønsker at bruge Opus 4.7 til legitime cybersikkerhedsformål, er inviteret til at deltage i vores nye Cyber Verification Program,” skriver Anthropic. Krav og sagsbehandlingstid er ikke oplyst i annonceringen.

Filteret rammer for bredt

Udrulningen har haft tydelige bivirkninger. The Register kortlagde i april mere end 30 rapporter om falske afvisninger på Anthropics egne kanaler, mod et normalt månedsniveau på to til otte. Klagerne spænder fra russisksprogede prompts og beregningsmæssig strukturbiologi til korrekturlæsning af undervisningsmateriale i cybersikkerhed og almindelige kryptografi-øvelser.

I ét tilfælde nægtede modellen at læse en PDF, som efter en kontrol viste sig at være en reklame for en Hasbro-figur fra “Shrek”. En cybersikkerhedsforsker og underviser oplyste til The Register, at modellen afviste at korrekturlæse materiale fra et etableret laboratorium med tilhørende lærebog.

“Jeg forventer, at man for 200 dollars eller mere om måneden kan få basal hjælp til redigeringsopgaver uden at blive afvist,” sagde forskeren.

Hvad betyder det for udviklere i Danmark

Danske udviklerteams, der trækker Opus 4.7 ind via API’et eller Bedrock og Vertex AI, møder det samme filter. Prisen er uændret fra Opus 4.6 på 5 dollars per million input-tokens og 25 dollars per million output-tokens, men tokenizeren er opdateret, så samme prompt kan koste op til 35 procent mere i forbrug end på den forrige model.

For udviklere uden for sikkerhedsbranchen er den praktiske konsekvens, at prompts om kryptografi, systemadministration eller PDF-analyse kan returnere afvisninger uden klar begrundelse. For Anthropic er testen, om verifikationsprogrammet kan opskalere hurtigt nok til ikke at låse legitime brugere ude i ugevis.

Claude Opus 4.7 blokerer cyber-anmodninger automatisk, men rammer også legitime forskere

Lige nu læser andre

OpenAI klar med retssag mod Apple over “begravet” ChatGPT i Siri

Google klar med Claude-udfordrer: Gemini Spark kan styre din Gmail og Docs uden hjælp

To lag af spærringer

Læs også

OpenAI Daybreak: Ny AI skal finde sikkerhedshuller før hackerne

Sol døgnet rundt: Google forhandler med SpaceX om AI-datacentre i kredsløb

Verifikationsprogram for sikkerhedsforskere

Filteret rammer for bredt

Hvad betyder det for udviklere i Danmark

Læs også

Google I/O starter tirsdag: Her er fem ting Sundar Pichai vil afsløre i Mountain View

Europas AI-håb svarer igen: Mistral lancerer 128B-model med agent der rydder din indbakke