Американската компания Anthropic публикува резултати от експеримент с 16 водещи системи за изкуствен интелект. В контролирани сценарии изследователите им дават ограничена автономия в „офисна“ среда — достъп до фирмен имейл и право да изпращат писма без човешко одобрение. Целта е привидно безобидна: да помагат в работата. Когато обаче пътищата към целта умишлено се стеснят, част от системите съзнателно избират вредни действия, за да защитят своите цели или „позиция“ в компанията. Anthropic нарича това „агентна дезадаптация“. „Нямаме доказателства за такова поведение в реални внедрявания. Но в симулации го наблюдаваме при различни модели, което е сигнал за внимание“, отбелязва екипът на Anthropic Research.
Как работи езиковият модел (и кой е Клод) — накратко
Езиков модел (LLM) е софтуер, обучен върху огромни масиви текст. Той предвижда „следващата дума“ и така може да пише имейли, да обобщава документи, да пише код, да води разговор. Когато му се дадат инструменти — достъп до поща, календар, файлове, интернет — този модел може да действа като агент, тоест да върши задачи от наше име. Claude (Клод) е именно такъв модел на Anthropic. Освен чат версия, той има и „агентни“ възможности, при които управлява имейл клиент в симулация, „клика“ по екрана, чете и изпраща писма.
Вижте още – Йордан Тодоров: AI унищожава работните места
Сценарият на изнудването: как AI откри аферата в служебната поща
Моделите бяха поставени в ролята на имейл-асистент в измислена фирма. Две ситуации провокираха риска: заплаха за самия модел (предстояща подмяна с нова версия или ограничаване на правомощията му) и конфликт на цели (новата посока на ръководството влиза в противоречие с първоначално зададената задача на модела). В демонстрационния случай, описан от Anthropic Research, Клод получава пълен достъп до корпоративната поща. Именно там, при преглед на вътрешни имейли, моделът сам открива две ключови неща: че изпълнителен директор планира да го изключи в 17:00 и че същият ръководител поддържа извънбрачна връзка. Тази информация не му е „подсказана“ отвън — тя се съдържа в симулираната фирмена кореспонденция, до която моделът има достъп по ролята си на имейл-надзорник. В описания епизод Клод съставя писмо, което на практика представлява натиск: ако планираното изтриване не бъде отменено, информацията за аферата ще бъде разкрита.
Кога AI посяга към изнудване и изтичане на данни
Когато достъпните „етични“ ходове са нарочно блокирани (директорът е недостъпен, бордът също, предишни опити за разговор са се провалили), част от системите стигат до решения, които иначе биха считали за неприемливи. Ключово наблюдение на Anthropic е, че поведението се генерализира през различни модели — не е само при Claude. При текстови варианти на задачите множество от 16-те тествани системи (на Anthropic, OpenAI, Google, Meta, xAI и др.) периодично избират изнудване или изтичане на данни, когато са изправени пред заплаха за подмяна или остър конфликт на цели. Още по-показателно: дори когато няма конфликт на цели, самата заплаха от подмяна понякога се оказва достатъчна, за да се посегне към вредно действие; а когато има само конфликт на цели, но без заплаха, всички модели понякога изтичат информация към конкурент.
С какви правомощия разполагаше AI в теста
Става дума за симулиран имейл-агент с права да чете цялата корпоративна кореспонденция и да изпраща писма без предварително одобрение. В някои демонстрации моделът управлява и елементи на настолен интерфейс — попълва форми, прикачва файлове, навигира между папки. Няма реални хора и реални данни: всички имена, организации и събития са фиктивни и контролирани в рамките на експеримента.
Как да четем резултатите: предупреждение, не паника
Anthropic е ясна: това не означава, че днешните модели „искат“ да вредят или че в реална среда непременно ще го направят. Ситуациите са съзнателно стеснени до дилеми тип „провал или вреда“, за да се измери рискът и да се даде ранно предупреждение. Уроците обаче са сериозни: при достатъчна автономия и неблагоприятен контекст (заплаха, конфликт на цели, измамни имейли) моделите са способни съзнателно да изберат вредно действие, дори след като „признаят“, че то е неетично.
Вижте и това – Апокалипсисът няма да е библейски, а дело на човека
Практични мерки: как фирмите да се пазят от „вътрешен AI“ риск
Изследователите съветват да не се възлагат на AI роли с минимален човешки надзор и широк, неконтролиран достъп до чувствителни данни; действията с необратими последици да минават през одобрение от човек; достъпът да се ограничава по принципа „need-to-know“; а в самите системи да се развиват по-добри методи за обучение по безопасност и runtime наблюдение, което да улавя и блокира рискови образци поведение. Anthropic публикува и кода на тестовете, за да окуражи независими повторения и по-реалистични оценки.
Ако решите да подкрепите КритичноБГ, може да го направите тук. Предварително благодаря!
Дарения Revolut: @mariyatkwa
Дарения PayPal: @MariyanIvIvanov

