Нынешней осенью крупные разработчики искусственного интеллекта (ИИ) приготовили много интересного. В прошлом месяце OpenAI предъявила o1 — свою последнюю модель ИИ. Предварительно заинтриговав загадочными названиями — «Strawberry», «Orion», «Q*»,— обещали улучшенные возможности рассуждения и решения научных задач, способности кодирования. Модель стала мощнее, в решении конкретных задач из области биологии или физики превосходит уровень кандидата наук. OpenAI создали хороший исследовательский инструмент, но не лучший в плане производительности и универсальности, медлительный за счет встроенного процесса рассуждений Chain of Thought (CoT), который проходит o1, прежде чем ответить.
Японская компания Rhymes AI выпустила в октябре бесплатную модель ИИ Aria, которая может на равных конкурировать с продуктами от OpenAI. Aria способна обрабатывать текст, код, изображения и видео в рамках единой архитектуры. Aria полностью с открытым исходным кодом (Open Source), небольшая и экономичная с точки зрения энергии и оборудования. Универсальность и эффективность модели обеспечивается архитектурой Mixture-of-Experts (MoE), похожей на команду знатоков в разных областях и задачах. Для конкретного задания модель активирует только часть соответствующих экспертов, снижая вычислительную нагрузку и повышая производительность. Есть возможность добавить новых экспертов для решения специализированных задач, что обеспечивает хорошую масштабируемость. В тестах производительности Aria опережает аналоги с открытым исходным кодом и составляет достойную конкуренцию проприетарным моделям, демонстрируя производительность на уровне продуктов OpenAI. Лицензия позволяет разработчикам и исследователям бесплатно адаптировать и развивать модель под свои задачи.
Meta Platforms на днях представила новый метод обучения ИИ, улучшающий обработку информации и ответы на запросы. Его назвали “Оптимизацией предпочтения мысли” (Thought Preference Optimization, TPO). Метод TPO не требует больших объемов новых данных, применим на существующих архитектурах ИИ. Подход отличается от традиционных методов, таких как CoT и MoE, он не показывает рассуждения шаг за шагом, все делается за один проход. TPO оттачивает навыки рассуждения языковых моделей ИИ, оценивая годность конечного вывода. Это — подражание склонности человека остановиться и поразмыслить перед ответом на сложный вопрос. Как результат,— более четкие «вдумчивые» ответы.
Яндекс непрестанно модернизирует и обновляет свою модель ИИ YandexGPT. К середине октября показал на ее основе новую версию технологии перевода текста на фото и изображениях. В ней используется большая языковая модель для перевода картинки с учётом контекста, которая понимает стиль и игру слов, подбирает более точные формулировки. Перевод на основе большой языковой модели работает для изображений с текстом на английском и доступен уже в Переводчике и Браузере Яндекса.
У нас всего лишь середина осени и, возможно, до Рождества на кухне ИИ буду готовы и другие новинки.