Anthropics nye sprogmodel afviser anmodninger om hacking, men også harmløse opgaver.
Da Anthropic lancerede Claude Opus 4.7 den 16. april, var det største nybrud ikke kodningsevner eller hastighed. Det var en spærre. Modellen er udstyret med et filter, der automatisk afviser anmodninger om offensive cyber-opgaver, og selskabet har samtidig trænet modellens egne offensive evner ned.
“Vi udgiver Opus 4.7 med sikkerhedsforanstaltninger, der automatisk opdager og blokerer anmodninger, som indikerer forbudt eller højrisiko-brug inden for cybersikkerhed,” skriver Anthropic i annonceringen. Selskabet har samtidig “eksperimenteret med tiltag, der differentielt reducerer disse evner” under selve træningen.
To lag af spærringer
Anthropic præciserer ikke offentligt hvilke konkrete anmodninger filteret stopper. Pressemeddelelsen taler bredt om “forbudt eller højrisiko”-brug uden at oplyse hvilke kategorier klassifikatoren er trænet på.
Skellet ligger mellem to indgreb. På træningsniveau er modellens offensive evner skåret ned i forhold til den interne Mythos Preview, som ikke er udgivet. Oven på det kører en realtidsklassifikator, der ifølge selskabet skal stoppe anmodninger om eksempelvis sårbarhedsudnyttelse og udvikling af offensive sikkerhedsværktøjer. Selskabet beskriver tiltagene som et skridt på vejen mod en bredere udgivelse af Mythos-klassen senere.
Verifikationsprogram for sikkerhedsforskere
Anthropic erkender, at filteret rammer en gruppe det ikke bør ramme: sikkerhedsforskere, der har brug for at simulere angreb. Derfor lancerer selskabet samtidig et “Cyber Verification Program”, hvor red-team-folk, pen-testere og sårbarhedsforskere kan ansøge om at få spærringerne lempet.
“Sikkerhedsprofessionelle, der ønsker at bruge Opus 4.7 til legitime cybersikkerhedsformål, er inviteret til at deltage i vores nye Cyber Verification Program,” skriver Anthropic. Krav og sagsbehandlingstid er ikke oplyst i annonceringen.
Filteret rammer for bredt
Udrulningen har haft tydelige bivirkninger. The Register kortlagde i april mere end 30 rapporter om falske afvisninger på Anthropics egne kanaler, mod et normalt månedsniveau på to til otte. Klagerne spænder fra russisksprogede prompts og beregningsmæssig strukturbiologi til korrekturlæsning af undervisningsmateriale i cybersikkerhed og almindelige kryptografi-øvelser.
I ét tilfælde nægtede modellen at læse en PDF, som efter en kontrol viste sig at være en reklame for en Hasbro-figur fra “Shrek”. En cybersikkerhedsforsker og underviser oplyste til The Register, at modellen afviste at korrekturlæse materiale fra et etableret laboratorium med tilhørende lærebog.
“Jeg forventer, at man for 200 dollars eller mere om måneden kan få basal hjælp til redigeringsopgaver uden at blive afvist,” sagde forskeren.
Hvad betyder det for udviklere i Danmark
Danske udviklerteams, der trækker Opus 4.7 ind via API’et eller Bedrock og Vertex AI, møder det samme filter. Prisen er uændret fra Opus 4.6 på 5 dollars per million input-tokens og 25 dollars per million output-tokens, men tokenizeren er opdateret, så samme prompt kan koste op til 35 procent mere i forbrug end på den forrige model.
For udviklere uden for sikkerhedsbranchen er den praktiske konsekvens, at prompts om kryptografi, systemadministration eller PDF-analyse kan returnere afvisninger uden klar begrundelse. For Anthropic er testen, om verifikationsprogrammet kan opskalere hurtigt nok til ikke at låse legitime brugere ude i ugevis.