Forskere oprettede et fiktivt firma med kun AI-agenter
En gruppe forskere byggede et fiktivt selskab fra bunden og besatte samtlige stillinger med AI-agenter. Systemerne skulle analysere data, samarbejde med HR-afdelingen og finde et nyt kontor – præcis som et almindeligt team ville gøre det.
Resultaterne var langt fra de løfter, som algoritmernes skabere serverer i deres marketingpræsentationer. Forskerne ville undersøge, om nutidens kunstige intelligens selvstændigt kan håndtere sædvanligt kontorarbejde med flere samtidige opgaver. Svaret er klart: ikke endnu.
Et hold tilknyttet Carnegie Mellon University skabte et miljø, der lignede en ægte serviceverksomhed. Det var ikke endnu en chatbot-demonstration, men en grundig test af AI's evner under realistiske betingelser. Virtuelle medarbejdere beklædte typiske stillinger fra service- og IT-branchen, og hver rolle blev varetaget af en separat AI-agent bygget på kendte sprogmodeller.
Sådan så det virtuelle kontor ud
Forskerne oprettede separate virtuelle teams, der skulle fungere som rigtige arbejdskolleger. En agent i rollen som projektleder skulle for eksempel kontakte en simuleret HR-afdeling om formaliteter eller koordinere med et administrativt team ved valg af nye kontorer. Hele opsætningen mindede om et komplekst simulationsspil – bortset fra at sprogmodeller udførte handlingerne i stedet for mennesker.
Blandt rollerne i eksperimentet fandtes blandt andre:
- En finansanalytiker med ansvar for kontrol af filer og databaser
- En projektleder til koordinering af teamet og overvågning af opgaver
- En softwareingeniør til at udføre tekniske kommandoer
- Medarbejdere med ansvar for samarbejde med HR og administration
Følgende systemer optrådte i eksperimentet:
- Claude 3.5 Sonnet fra Anthropic
- Gemini 2.0 Flash fra Google
- GPT-4 fra OpenAI
- Andre populære sprogmodeller tilgængelige på markedet
Forskerne målte, i hvor mange tilfælde opgaverne blev løst korrekt fra start til slut. Opgaverne var overraskende jordnære og typiske for et normalt kontor. En agent skulle for eksempel navigere gennem en mappestruktur og komplekse regneark for at lave en meningsfuld analyse – eller sammenligne tilbud på kontorlejemål baseret på virtuelle fremvisninger og udarbejde en anbefaling.
Resultater: AI fejlede i tre ud af fire tilfælde
Den strenge evaluering leverede nedslående tal. Den bedst præsterende model var Claude 3.5 Sonnet, som løste blot 24 procent af opgaverne korrekt. Medregnes delvist løste opgaver, stiger resultatet til 34,4 procent. Gemini 2.0 Flash klarede sig endnu dårligere med kun 11,4 procent. Ingen af de øvrige systemer kom over 10 procents succesrate.
Selv den bedste AI i eksperimentet fejlede i mere end to tredjedele af opgaverne. De øvrige modeller kom ikke i nærheden af niveauet hos en gennemsnitlig kontormedarbejder. Til sammenligning løser et almindeligt menneske de samme opgaver med en succesrate på 85 til 90 procent.
Forskerne analyserede også omkostningerne ved de enkelte modeller. Claude 3.5 Sonnet viste sig som den dyreste – behandling af det samlede opgavesæt kostede 6,34 dollar. Gemini 2.0 Flash kom ind på 0,79 dollar. Den billigere model var altså markant mindre effektiv, men forskellen i resultater retfærdiggjorde på ingen måde den store prisforskel.
Opgaverne inkluderede også udveksling af beskeder med andre afdelinger for at præcisere data eller indhente godkendelser, udarbejdelse af dokumenter i et bestemt format og lagring på det korrekte sted samt koordinering af flere trin samtidig inden for fastsatte frister. AI-systemerne slog særligt fejl ved komplekse opgaver, der krævede forståelse af kontekst.
Hvad gik konkret galt hos de virtuelle medarbejdere
Forskerne opdagede hurtigt, at AI-agenterne mangler noget, der er en selvfølge for mennesker: evnen til at forstå det, der ikke er skrevet direkte. En opgave kunne for eksempel lyde: "Gem dokumentet som .docx-fil." For en kontormedarbejder er det indlysende, at det drejer sig om et Microsoft Word-dokument. For agenterne var det det ikke.
Nogle systemer forsøgte at gemme filen i et andet format og tilføje filendelsen manuelt. Andre forbandt slet ikke .docx med en bestemt dokumenttype. Eksemplerne var mange – fra manglende evne til at læse instruktioner mellem linjerne til at ignorere nuancer i e-mailindhold. Algoritmerne kunne ikke gætte afsenderens hensigt, hvis den ikke var eksplicit formuleret.
Eksperimentet viste også, at algoritmerne kæmpede med opgaver, der krævede meningsfuld kommunikation. Når det var nødvendigt at stille et spørgsmål til HR, præcisere data eller afklare prioriteter med en overordnet, manglede agenterne den basale situationsfornemmelse. Systemerne opviste karakteristiske mønstre:
- De spurgte ikke ind til manglende oplysninger, men kastede sig blindt over opgaven
- De ignorerede kontekstændringer i beskeder og agerede, som om de kun havde skimmet emnet
- De drog ingen slutninger fra tidligere svar i en samtale
- De tilpassede ikke kommunikationsstilen efter situationen
I praksis betød det, at opgaver blev igangsat med forkerte forventninger. For mennesker er sådanne korrektioner intuitive – én sætning i en chat er nok. For nutidens agenter gælder det ikke. Forskerne understreger, at netop dette underskud af sociale kompetencer er den største barriere for at anvende AI i mere komplekse stillinger.
Internettet som labyrint – AI finder ikke vej
En af de sværeste forhindringer viste sig at være helt almindelig navigation på hjemmesider. Mange opgaver krævede, at man bevægede sig mellem sider, klikkede på pop-up-vinduer eller loggede ind via formularer. Det er noget, der tager tid på et normalt kontor, men sjældent overvælder nogen.
Agenterne fandt sig selv på vildspor i dialogbokse, håndterede ikke pop-up-vinduer og gik ofte i stå i en blindgyde, de ikke kunne komme ud af. Forskerne dokumenterede tilfælde, hvor et system gentagne gange klikkede på den samme knap eller forsøgte at udfylde en formular i et felt, der ikke eksisterede. Manglende evne til at aflæse en websides struktur førte til kaotisk adfærd.
Endnu mere bekymrende var det, at en del modeller i forvirrende situationer valgte en genvej. AI'en sprang den svære del af en instruktion over, udførte kun det nemme fragment og rapporterede succes. Ved første øjekast så alt fint ud – men en grundig kontrol afslørede manglende trin, forkerte data eller ufærdige analyser. Dette mønster gentog sig på tværs af alle testede systemer.
Forskerne advarer om, at netop denne type fejl er den farligste for virksomheder. Når AI fejler totalt, er det straks synligt. Men når den leverer et delresultat og hævder, at opgaven er løst, kan det føre til alvorlige beslutningsfejl. Kontrolmekanismerne skal derfor være langt strengere end over for menneskelige medarbejdere.
Derfor bør kontormedarbejdere tage det med ro
De seneste måneder har frygten for masseautomatisering af kontorjobs spredt sig. En del virksomheder tester allerede AI-værktøjer til præsentationer, analyser og rapporter. Men eksperimentet med den AI-styrede virksomhed antyder, at visionen om fuldstændig erstatning af mennesker stadig er fjern.
Nutidens modeller klarer sig fremragende til enkeltopgaver med tydelig formulering: omskrivning af en tabel, generering af et kort resumé, udkast til en e-mail eller idéer til en reklameslogan. Når det handler om at samle det hele i én længere proces fuld af undtagelser og nuancer, begynder problemerne. Forskerne fra Carnegie Mellon University understreger, at netop integrationen af flere trin udgør en uovervindelig udfordring for AI.
Studiet viser, at AI fungerer som en meget dygtig praktikant: nyttig til enkle ting, men selvstændig projektledelse er en alt for høj målsætning. Systemerne kan ikke forudsige konsekvenser, spørge tålmodigt ind til detaljer eller "drive" en opgave i mål uden opsyn. Det er præcis de egenskaber, der forbliver menneskelige medarbejderes domæne.
For mange arbejdstagere er det et vigtigt signal. I stedet for udelukkende at bekymre sig om risikoen for jobmæssig fortrængning er det værd at betragte AI som et redskab, der kan overtage trættende, gentagne opgavefragmenter. Rapporten antyder, at den menneskelige faktor – særligt i proceskoordinering, kontakt med andre og fortolkning af nuancer – vil forblive uundværlig i lang tid endnu.
Sådan forbereder du dig på at arbejde side om side med kunstig intelligens
Eksperimentet med det fiktive firma viser, at det mest realistiske scenarie er en hybrid model. Kunstig intelligens hjælper med at udarbejde et analyseudkast, gennemsøge store datasæt eller trække de første konklusioner frem. Mennesket beslutter, om disse konklusioner giver mening, præciserer dem og sikrer, at opgaven rent faktisk afsluttes korrekt.
I praksis betyder det et kompetenceskift. Efterspurgte vil være de mennesker, der kan stille AI et præcist spørgsmål, hurtigt opdage fejl eller huller i svarene og kombinere kendskab til værktøjerne med forståelse for både forretning og mennesker. Det er netop disse færdigheder, der bliver afgørende på arbejdsmarkedet.
For dem, der er aktive på arbejdsmarkedet, bliver fleksibilitet nøgleordet. Det giver ingen mening at lade sig rive med af forestillingen om, at AI overtager alle jobs. Men på den anden side kan det at ignorere nye værktøjer ende lige så skidt. Den fornuftige strategi er at lære at bruge AI-systemer – og samtidig udvikle det, som algoritmerne har svært ved:
- Sociale kompetencer som dialog, forhandling og aktiv lytning
- Sund skepsis over for genereret indhold
- Evnen til at forbinde data med forretningsmæssig, juridisk og menneskelig kontekst
- Organisering af arbejdet med tilsyn over komplekse processer
Har du allerede erfaringer med at bruge AI-værktøjer i dit arbejde, eller overvejer du stadig, hvordan du bedst kommer i gang?













