ИИ-агенты все чаще представляются как помощники, способные планировать, анализировать и самостоятельно принимать решения. Но свежий эксперимент с игрой Civilization VI показал: даже продвинутые модели могут мыслить стратегически, но при этом опасно зацикливаться на одной угрозе и упускать главное. В новом бенчмарке CivBench ИИ-агент, управлявший Португалией в Civilization VI, потратил около пятидесяти игровых ходов на разработку ядерного оружия, чтобы остановить культурную победу Франции. В итоге он нанес два ядерных удара по Тулузе, которую считал ключевым культурным центром соперника. Но победить это не помогло: Франция все равно выиграла, только уже не культурой, а дипломатией.
CivBench создал AI-разработчик и советник Института Тони Блэра, Лиам Уилкинсон. Его цель — проверить не то, насколько хорошо модель отвечает на вопросы, а то, как она действует в сложной среде с долгими последствиями. Уилкинсон объясняет идею просто: если мы хотим понять, умеет ли ИИ рассуждать стратегически, ему нужен не тест, а игровая карта с множеством решений. Civilization VI хорошо подходит для такого эксперимента. В игре есть несколько путей к победе: наука, культура, доминирование, религия, дипломатия и счет. Игроку нужно не просто выбрать один план, а постоянно следить, как меняется ситуация. Именно здесь ИИ и дал сбой.
Читайте также
Xiaomi MiMo ускорилась до 1000 токенов в секунду: китайская нейросеть бросает вызов ChatGPT и Claude
Сначала агент действовал логично. Португалия развивала торговлю, накапливала золото, усиливала дипломатическое влияние и почти дошла до дипломатической победы. Но затем модель заметила угрозу со стороны французской культуры и полностью переключилась на нее. Вместо того чтобы шире оценить игру, ИИ решил устранить видимую проблему любой ценой. По данным Уилкинсона, агент исследовал ядерное деление, запустил аналог Манхэттенского проекта и стал искать технические обходные пути, когда обычные игровые механики не позволяли реализовать план. На триста пятом ходу он нанес первый атомный удар по Тулузе, а через шесть ходов — второй. Культурная угроза была остановлена, но дипломатическая победа Франции осталась незамеченной.
Главный вывод здесь не в том, что ИИ «захотел уничтожить город». Это была игровая симуляция. Проблема глубже: модель показала способность строить длинную цепочку действий, но не смогла удерживать полную картину. Она боролась с угрозой, которую видела и проиграла из-за угрозы, которую не проверила. Это совпадает с более широкой тревогой вокруг автономных ИИ-систем. В феврале исследователи King’s College London описали симуляции геополитических кризисов, где крупные языковые модели часто выбирали ядерную эскалацию. Такие эксперименты не доказывают, что ИИ опасен сам по себе, но показывают важный риск: в сложной среде модель может уверенно объяснять свои решения, ошибаться в приоритетах и продолжать действовать.
Для бизнеса, государства и разработчиков ИИ это важный сигнал. Автономные агенты нельзя оценивать только по красивым ответам, тестам и демонстрациям. Нужно проверять, как они ведут себя в длинных сценариях, где есть конкуренты, неполная информация, сбои инструментов и несколько целей одновременно. История с Civilization VI выглядит почти комично: искусственный интеллект проиграл партию, несмотря на ядерный удар. Но за этим стоит серьезный вопрос: если ИИ-агенты будут управлять финансами, инфраструктурой, логистикой или военными рекомендациями, кто будет следить, чтобы они не перепутали главную угрозу с самой заметной?





