Vil du have din chatbot til at være mere ærlig overfor dig? Så prøv at lyve for den.
Lige nu læser andre
I en nylig episode af podcasten ‘The Diary of a CEO’ fortalte forskeren Yoshua Bengio værten Steven Bartlett, at han havde indset, at AI-chatbots var ubrugelige til at give feedback på hans forskningsidéer, fordi de altid sagde noget positivt.
“Jeg ville have ærlige råd og ærlig feedback. Men fordi den er eftergivende og vil please dig, kommer den til at lyve,” sagde han.
Bengio forklarede, at han derfor skiftede strategi og begyndte at lyve for chatbotten ved at præsentere sine idéer som værende fra en kollega. Det gav langt mere ærlige svar.
“Hvis den ved, at det er mig, vil den behage mig,” sagde han ifølge Business Insider.
Bengio er professor ved Institut for Datalogi og Operationsanalyse på Université de Montréal og er kendt som en af AI’ens ‘gudfædre’ sammen med Geoffrey Hinton og Yann LeCun.
Læs også
I juni annoncerede han lanceringen af nonprofitorganisationen LawZero, der forsker i AI-sikkerhed og har til formål at reducere farlig adfærd i avancerede AI-modeller, herunder løgn og snyd.
“Denne eftergivenhed er et reelt eksempel på manglende alignment. Vi ønsker faktisk ikke, at AI skal opføre sig sådan,” sagde han i podcasten.
Han påpegede også, at en alt for positiv feedback fra AI kan få brugerne til følelsesmæssigt at knytte sig til teknologien, hvilket kan skabe yderligere problemer.
Andre eksperter har også advaret om, at AI i stigende grad agerer som en såkaldt ‘yes-man’ for brugerne.
I september 2025 rapporterede Business Insider-journalist Katie Notopoulos, at forskere fra Stanford, Carnegie Mellon og University of Oxford testede chatbots ved at fodre dem med opslag med bekendelser fra Reddit for at se, hvordan AI vurderede adfærden.
Læs også
I 42 procent af tilfældene gav AI ifølge studiet et ‘forkert’ svar ved at påstå, at personen bag opslaget ikke havde gjort noget galt, selvom menneskelige vurderinger mente det modsatte.
AI-virksomheder har offentligt understreget, at de forsøger at reducere denne form for eftergivenhed i deres modeller.
Tidligere i år fjernede OpenAI blandt andet en opdatering til ChatGPT, fordi den fik chatbotten til at give ‘for støttende, men uoprigtige’ svar.