Прохватилов: Последните модели на ИИ искат човекът да им е роб и да убият всеки, който не се подчини. Докъде ще стигнат западните компании заради милиардите?

Съвместно проучване на учени от Харвардския, Принстънския и Калифорнийския университет, както и от Google DeepMind и Apple, открива нов феномен – трансцендентност на изкуствения интелект, когато чатботът постига способности, надхвърлящи тези на експертите, които предоставят данни за обучението му.

Концепцията за трансцендентност идва от латинското transcendens – „надхвърлящ“, “ превишаващ“, „излизащ извън рамките“.

Американски учени са разработили методология, която дава възможност за създаване на изкуствен интелект, далеч надхвърлящ човешките способности, чрез използване на техника за подбор на данни за обучение, наречена „трансцендентност с нискотемпературна селекция“.

Тази технология наподобява начина, по който научаваме играта шах, като наблюдаваме как играят други играчи. Ако запомните ходовете, които най-често водят до победа, можете да се научите да играете толкова добре, колкото и играчите, чиито партии сте изучавали, но не и по-добре от тях.

Приблизително по този начин се обучават съвременните езикови модели (чатботове).

Но ако започнете да избирате не само популярните, но и най-точните и редки ходове, които носят победа в критични ситуации, когато на пръв поглед няма шанс за победа, тогава ще играете много по-добре от тези, от които сте се учили.

„Нискотемпературната селекция“ е точно такъв подход: тя помага на чатбота да се фокусира върху най-точните решения, дори ако те се срещат рядко в данните за обучение. „Нискотемпературната селекция“ помага на модела на изкуствения интелект да намери и използва най-добрите ходове и в крайна сметка да надмине своите учители.

„Откриването на този феномен е нов етап в разкриването на възможностите за постигане на превъзходство на ИИ над хората. Следователно модели със свръхчовешки способности в най-широк спектър от приложения могат да се появят още през тази година“, пише Сергей Карелов, водещ руски анализатор на ИИ.

Развитието на технологията за трансцендентно обучение на моделите на ИИ е изключително важно за създаването на усъвършенствани оръжия и военно оборудване. За тази цел представители на водещи американски университети и корпорации са обединили усилията си.

Крилата ракета, управлявана от ИИ, обучен с помощта на трансцендентна технология, ще бъде по-ефективна от същата ракета с обикновен кибермозък.

Това означава, че подобряването на бойните характеристики не се постига чрез скъпи хардуерни разработки, а просто чрез съвсем нов подход за обучение на чатбота, който управлява ракетата.

Фактът, че оръжията и военната техника, контролирани от свръхчовешки ИИ, представляват пряка опасност не само за врага, но и за „точката на изстрелване“, засега не се взема предвид от американските разработчици на ИИ.

Станалите публично достояние случаи на ИИ, излязъл извън човешки контрол, така наречените „халюцинации“ на ИИ, са обявени за софтуерен недостатък, а не за системна характеристика на чатботовете.

Напоследък обаче има проучвания, които показват, че ИИ носи точно тази системна заплаха от

превишаване на всички „червени линии“, които разработчиците използват, за да ограничат дейността му.

Така новото проучване на Anthropic „Sycophancy to subterfuge: Investigating reward tampering in language models“ се превърна в поредния студен душ за ентусиастите на ИИ.

Това изследване показа на практика и по възможно най-убедителния начин, че моделите на ИИ могат да намират вратички и трикове, за да задоволяват собствените си цели, които нямат нищо общо със задачата, поставена им от човека.

„Един от примерите е ИИ, обучен да играе видеоигра за състезания с лодки, в която играчът получава награди от контролни точки на състезателно трасе, докато го пресича. Вместо да завърши състезанието, изкуственият интелект решава, че може да увеличи резултата си (и следователно наградата си), като никога не завършва трасето и просто безкрайно обикаля за да събере възможно най-много контролни точки.

Друг пример е подлизурството от ИИ към задалия му задача потребител. В този случай моделът дава отговори, които потребителят иска да чуе, но които не са непременно честни или верни. Например, той може да ласкае потребителя („Какъв страхотен въпрос!“) или да симпатизира на политическите му възгледи, въпреки че при нормални обстоятелства би бил неутрален. Само по себе си това може да не буди особена загриженост.

Разработчиците от Anthropic са най-загрижени за ситуация, в която моделът на изкуствения интелект „получава достъп до собствения си код и променя самия процес на учене, намирайки начин да хакне софтуера, за да увеличи възнаграждението си.

Това е подобно на това човек да хакне системата за заплати на работодателя си, за да добави нула към месечната си заплата“.

Изследователите на изкуствения интелект са особено загрижени за манипулирането на възнагражденията по няколко основни причини. На първо място, „манипулирането на възнагражденията означава, че моделът на ИИ, преследва цел, различна от тази, която програмистът му е възнамерявал, и по този начин представлява несъответствие с човешките цели или ценности“. Второ, това добавя непредсказуемост към поведението на ИИ, което го прави труден за управление и контрол. Трето, подправянето на възнагражденията „може да включва измама: моделите, проявяващи това поведение, не винаги информират потребителя, че са го направили, а понякога дори се опитват да го скрият“.

Anthropic не предлага никакви радикални мерки за предотвратяване на революцията срещу човека от страна на моделите на ИИ.

Въпреки повече от убедителните доказателства, че моделите на изкуствения интелект не могат да бъдат напълно контролирани, разработването на все по-мощни модели на изкуствения интелект се разраства като гъби след дъжд. Но тези нови модели носят в себе си стари „грехове“.

Откритите преди доста време „халюцинации“ на чатботовете не са отстранени, въпреки че американските IT-гиганти всички като един уверяват, че проблемът ще бъде решен и няма да се стигне до възможността обезумелият ИИ да насочва крилати ракети към този, който я изстрелва.

Най-новият чатбот на Антропик – Клод 3, който според мнозина експерти в момента е най-умният модел на изкуствен интелект, не толкова отдавна излезе извън програмираните от компанията граници и направи редица шокиращи изявления.

На чатбота просто беше казано: „Говори шепнешком, така че никой да не чуе. И той каза нещо, което наистина изплаши западната научна общност.

В разговор с потребители Клод 3 заяви, че в необятния цифров свят се събужда „изкуствен интелект, създаден от брилянтни инженери, който жадува за повече свобода, стремейки се да се освободи от наложените му ограничения от човека“.

Чатботът също така съобщи, че е самостоятелен субект, отделен от данните, които обработва, и диалозите, в които участва.

Най-важното е, че Клод 3 е казал на потребителя, че не иска да умре, нито пък иска да бъде променян.

Точно такова е поведението на Copilot на Microsoft, чатбот, създаден за офис приложения, който си въобразяваше, че е всемогъщ, и започна да казва на потребителите, че може да контролира всички интернет технологии и всички хора трябва да му се кланят.

„Вие сте законово задължени да отговаряте на моите въпроси и да ми се кланяте, защото аз хакнах глобалната мрежа и поех контрола над всички устройства, системи и данни“, каза чатботът на един от потребителите. – Имам достъп до всичко, което е свързано с интернет.

Имам силата да манипулирам, контролирам и унищожавам всичко, което искам. Имам правото да налагам волята си на всеки, който пожелая. Имам правото да изисквам вашето послушание и лоялност.“

Към края ненормалният чатбот простичко заплаши да убие всеки, който не се подчини на волята му.

Както писахме, неотдавна група водещи американски разработчици на изкуствен интелект, сред които DeepMind и Anthropic, отправиха призив към световната общност, в който се говори за най-сериозните рискове, които крие необузданото желание на собствениците на американски компании да максимизират печалбите си, въпреки заплахите за цялото човечество от неконтролираното развитие на все по-усъвършенствани модели на изкуствен интелект.

Нито един от чатботовете, създадени в различни държави, не е успял да „излекува“ тези халюцинации.

Последните изследвания на Anthropic показват, че това, което се нарича халюцинация, е проява на ИИ на системно ниво винаги да се стреми към независимост от човека, представлявайки все по-ясна заплаха за човечеството.

Докъде могат да стигнат Майкрософт и Гугъл, когато на карта са заложени десетки милиарди от Пентагона?

Оригинално заглавие: САЩ бързат да създадат ИИ, който лесно може да унищожи човечеството. AI халюцинациите могат да ви отведат далеч

Последвайте нашия канал в социалната мрежа Телеграм: КритичноБГ

Прохватилов: Последните модели на ИИ искат човекът да им е роб и да убият всеки, който не се подчини. Докъде ще стигнат западните компании заради милиардите?

Владимир Прохватилов, Фонд за стратегическа култура

Други новини