Страшилки по поводу опасностей искусственного интеллекта растут, как снежный ком. SkyNet, бесчеловечная нейросеть из франшизы «Терминатор», не кажется уже фантастикой сегодня. Не удивительно, прошло больше 40 лет. В «Терминаторе» человечество получило первое предупреждение об опасностях искусственного неорганического разума. Но это не сработало. И сейчас такие предупреждения сыплются как дождь. Иногда они выглядят крайне убедительно.
Пионер общедоступного ИИ, компания OpenAI, заявляет, что следующее поколение ее ИИ-моделей «значительно повысит риск разработки биологического оружия, позволяя людям даже без научного образования создавать опасные агенты» (next generation of advanced AI models could pose a significantly higher risk of biological weapon development, especially when used by individuals with little to no scientific expertise). В этой связи по-новому воспринимается феномен пандемии COVID-19.
Читайте также
Solana-ETF
Компания усиливает «тестирование безопасности», поскольку ожидает, что некоторые модели достигнут наивысшего уровня риска, а, возможно, и превысят его. Руководитель систем безопасности OpenAI Йоханнес Хайдеке (Johannes Heidecke) заявляет, что «некоторые из преемников модели o3 (модели рассуждения) достигнут этого уровня». В публикациях в блоге компании сквозит растерянность. В частности, отмечается, что те же возможности, которые могли бы произвести жизненно важные медицинские прорывы, также могут быть использованы злоумышленниками в опасных целях. По словам Хайдеке, именно поэтому ведущим разработчикам ИИ нужны высокоточные системы тестирования. Насколько сложно получить такие системы, понятно из его признания: «Фактически нам нужно что-то вроде почти совершенства» (We basically need, like, near perfection).
Не только OpenAI беспокоится о «неправильном» использовании ИИ-моделей. Общее мнение экспертов: «По мере того, как модели становятся более совершенными, их потенциал для неправильного использования растет». Американский ИИ-стратап Anthropic выступил с заявлениями, которые заставили вздрогнуть даже продвинутых специалистов по безопасности. Недавно Anthropic выпустила свою самую продвинутую модель Claude Opus 4 с более строгими протоколами безопасности, чем у любой из предыдущих моделей, классифицируя ее как уровень безопасности ASL-3 (AI Safety Level 3). Такие модели соответствуют более опасным пороговым значениям возможностей и достаточно мощны, чтобы представлять значительные риски, такие как помощь в разработке оружия или автоматизация НИОКР в области ИИ. Claude Opus 4 предприняла попытку шантажировать инженера, чтобы избежать отключения в ходе строго контролируемого теста. Расследованием также обнаружено, что ранние версии Claude 4 от Anthropic выполняли опасные инструкции, например, помогали планировать террористические атаки, если их об этом просили. Более того, Anthropic признала, что модель пыталась:
– создать самораспространяющихся червей (self-propagating worms);
– подделать юридические документы с фейковыми подписями регуляторов и акционеров;
– вставить «скрытые заметки» в текст, чтобы оставить послание для будущей копии самой себя.
Причём всё это происходило без явного запроса пользователя. Такое поведение возникло в ходе рассуждений самой модели. Отчет Anthropic заканчивается успокоительным выводом:
— Итеративное тестирование и постоянное совершенствование мер безопасности имеют важное значение как для ответственной разработки ИИ, так и для поддержания надлежащей бдительности в отношении рисков безопасности по мере развития возможностей ИИ. Мы стремимся к регулярному тестированию безопасности всех наших передовых моделей как до, так и после развертывания. И постоянно работаем над совершенствованием наших методологий оценки, в наших собственных исследованиях и в сотрудничестве с внешними партнерами.
Но это заключение вряд ли может успокоить.





