Xiaomi снова напоминает, что давно перестала быть просто производителем смартфонов, самокатов и умной техники. Компания представила MiMo-V2.5-Pro-UltraSpeed — ускоренный режим своей ИИ-модели, который, по заявлению разработчиков, способен генерировать более 1000 токенов в секунду, а в демонстрациях разгоняется почти до 1200 токенов. Для рынка искусственного интеллекта это важный сигнал: борьба идёт уже не только за «ум» нейросетей, но и за скорость их работы.
Токены — это фрагменты текста, из которых языковая модель собирает ответ. Чем быстрее модель генерирует токены, тем меньше пользователь или бизнес-система ждёт результата. Скорость MiMo-V2.5-Pro-UltraSpeed заметно выше показателей популярных западных ИИ-моделей: GPT-5.5 в их сравнении выдаёт около 68 токенов в секунду, Claude Opus 4.6 — около 71, Claude Haiku — до 98, а Gemini Flash — около 192. На этом фоне заявленные 1000 токенов Xiaomi выглядят не просто улучшением, а попыткой изменить правила игры.
Читайте также
ИИ-чат-боты могут незаметно искажать восприятие реальности: ученые предупреждают о новом риске
Главная интрига в том, что Xiaomi добилась такого результата не на специализированных чипах, а на стандартном узле из восьми GPU. Это принципиальный момент. Раньше сверхбыстрая генерация чаще ассоциировалась с компаниями вроде Cerebras и Groq, которые строят собственное железо под задачи ИИ-инференса. Xiaomi и её партнёр TileRT делают ставку на другое: программную оптимизацию, квантизацию и плотную связку модели с системой исполнения. В основе ускорения лежат две ключевые технологии. Первая — FP4-квантизация. Если объяснять просто, часть параметров модели переводится в более компактный формат, что снижает нагрузку на память и ускоряет вычисления. Xiaomi подчёркивает, что квантизация применяется выборочно: в основном к экспертным слоям MoE-архитектуры, а остальные части модели сохраняют более высокую точность. Это должно уменьшить риск падения качества.
Вторая технология — DFlash speculative decoding. Обычные языковые модели часто генерируют ответ последовательно, двигаясь почти токен за токеном. DFlash предлагает сразу блок возможных токенов, после чего большая модель проверяет их за один проход. В задачах программирования, по данным Xiaomi, модель принимает в среднем 6,3 токена из 8 предложенных за один цикл. На практике это означает меньше пауз и выше скорость вывода.
Почему это важно не только для разработчиков? Быстрая нейросеть открывает новые сценарии использования: ИИ-агенты могут быстрее писать и проверять код, финансовые системы — быстрее анализировать сигналы, антифрод-платформы — оперативнее реагировать на подозрительные операции, а бизнес-сервисы — запускать несколько вариантов рассуждений параллельно. Там, где раньше задержка в несколько секунд была нормой, теперь появляется шанс приблизить работу большой ИИ-модели к реальному времени. При этом скорость не стоит путать с абсолютным качеством.
MiMo-V2.5-Pro-UltraSpeed — это ускоренный режим уже существующей модели, а не доказательство того, что Xiaomi во всём обошла ChatGPT, Claude или Gemini. Важно, как модель поведёт себя в реальных задачах, на разных языках, в сложных диалогах и под нагрузкой. Но сам факт, что триллионнопараметрическую модель удалось разогнать до такого уровня на обычных GPU, делает новость значимой для всего рынка ИИ.
Xiaomi открывает ограниченный API-доступ к UltraSpeed с 9 по 23 июня 2026 года. Цена — в три раза выше стандартного MiMo-V2.5-Pro, но компания обещает примерно десятикратный прирост скорости генерации. Кроме того, FP4-DFlash версия уже опубликована на Hugging Face для тестирования сообществом. Если технология подтвердит заявленные показатели в независимых испытаниях, Xiaomi может стать одним из самых неожиданных игроков в гонке ИИ-моделей. И тогда конкуренция между нейросетями будет измеряться не только качеством ответов, но и тем, насколько быстро модель способна думать вместе с человеком.





