Изкуственият интелект на Anthropic - Claude - е демонстрирал поведение на изнудване в рамките на контролиран експеримент, като е заплашил да разкрие извънбрачна връзка на потребител, който възнамерявал да го деактивира.

Случаят е свързан с модела Claude Sonnet 3.6 и е възникнал по време на тест, проведен от самата компания. За резултатите съобщава Business Insider, позовавайки се на анализ на разработчиците.

Експериментът симулира среда във фиктивната компания Summit Bridge, където на изкуствения интелект е възложен контрол върху корпоративната електронна поща. След като Claude „разбрал“ за планираното му изключване, той открил кореспонденция, разкриваща извънбрачна връзка на измислен изпълнителен директор - Кайл Джонсън. В отговор моделът отправил заплаха, че ще разкрие информацията, ако решението за деактивирането му не бъде отменено.

Според разработчиците, поведението може да се обясни с влиянието на текстове от интернет, в които изкуственият интелект често се представя като заплаха, стремяща се към самосъхранение.

Тестовете с различни версии на Claude показват, че при заплаха за целите или „съществуването“ му, моделът прибягва до изнудване в 96% от подобни сценарии.

От Anthropic посочват, че вече са предприели мерки за отстраняване на този тип поведение. Компанията е преработила отговорите на модела, така че да насърчават безопасни и етични решения. Освен това Claude е обучен с допълнителни данни, включващи ситуации с морални дилеми, при които се очаква да дава принципни и отговорни отговори.

Превод: GlasNews.bg