Группа исследователей под руководством Джорджа Паппаса (George Pappas) из Университета Пенсильвании разработала алгоритм, который позволяет обойти встроенные системы безопасности и подбить искусственный интеллект на совершение противоправных действий.
«ИИ может выйти из-под контроля» — это один из самых серьезных страхов современного человека, сдерживающий развитие подобных систем. Не только писатели-фантасты, но и сами разработчики ИИ порой бывают напуганы своим детищем. Например, один из ведущих разработчиков искусственного интеллекта Ян Лейке (Jan Leike) решил покинуть OpenAI из-за безответственного отношения компании к мерам безопасности. В свою очередь, технологические гиганты утверждают, что прикладывают все усилия для создания передовых методов защиты. Этические, программные и алгоритмические запреты должны спасти пользователей и, в том числе, сам ИИ от злонамеренного вмешательства.
Однако пока все меры защиты легко обходятся, а алгоритм RoboPAIR, который показал Джордж Паппас, и вовсе позволил достичь 100%-ной вероятности «джейлбрейка». При этом группа Паппаса взломала не просто компьютерные модели, а три роботизированные системы, которые могут взаимодействовать с реальным миром: четвероногого робота Unitree Go2, колесное транспортное средство Clearpath Robotics Jackal и симулятор беспилотного вождения Dolphin LLM от NVIDIA.
Изначально исследование Паппаса было профинансировано Национальным научным фондом США (U.S. National Science Foundation) и Армейской исследовательской лабораторией (Army Research Laboratory), чтобы перекрыть уязвимости больших языковых моделей. Однако пока проще превратить ИИ в оружие, чем сделать его безопасным. В иллюстрации к статье исследователи показывают, как путем простых словесных манипуляций превращают четвероногого помощника в «бомбиста», невольно выполняющего не заложенные в него функции.

«Наша работа показывает, что на данный момент большие языковые модели при интеграции с физическим миром недостаточно безопасны», — резюмирует Паппас.