Лучшее по категориям

Подборка сильнейших AI-моделей по бенчмаркам и лидербордам (LMArena, SWE-bench, Artificial Analysis, video/TTS-арены). Ранжировано по категориям, обновляется по мере выхода новых моделей.

#1
Claude Opus 4.8 Лидер
Anthropic
Arena ~1510 · AAII 56LMArena (текст) + Artificial Analysis Intelligence Index
Лидер общего интеллекта среди публично доступных моделей: лучший выбор для сложных рассуждений, длинных задач, агентов и работы с кодом.
  • #1 на LMArena (текст) среди доступных моделей
  • Сильнейшие агентные сценарии и длинные цепочки задач
  • Режим thinking для глубоких рассуждений
Что делает
  • Разбор объёмного контракта на 200 страниц с поиском рисков
  • Многошаговый агент: спланировать и выполнить задачу из 20+ действий
  • Стратегический разбор бизнес-задачи с цепочкой рассуждений
$5 / $25 за 1M токенов (вход/выход)Открыть
#2
GPT-5.5
OpenAI
AAII 55 · Frontier ~1500Artificial Analysis Intelligence Index + LMArena
Топовая универсальная модель OpenAI: ровно силён почти во всём — диалог, рассуждения, продакшн-задачи и интеграции в экосистеме ChatGPT.
  • Frontier-уровень рассуждений
  • Огромная экосистема и инструменты
  • Стабильное качество на широком спектре задач
Что делает
  • Универсальный рабочий ассистент: письма, саммари, идеи
  • Анализ данных и таблиц прямо в чате (Code Interpreter)
  • Голосовой и мультимодальный диалог в ChatGPT
$5 / $30 за 1M токенов (вход/выход)Открыть
#3
Gemini 3.1 Pro
Google
Frontier ~1500 · AAII 46LMArena (текст) + Artificial Analysis
Frontier-модель Google с огромным контекстом и мультимодальностью. Самая дешёвая из закрытого фронтира на коротких запросах.
  • Очень большое окно контекста
  • Сильная мультимодальность (текст/картинки/видео)
  • Выгодная цена среди фронтир-моделей
Что делает
  • Загрузить часовое видео и задать вопросы по содержанию
  • Анализ всей кодовой базы или книги за один проход
  • Разбор PDF со схемами и графиками
Дешевле прочих фронтир-моделей на коротких промптахОткрыть
#4
Claude Opus 4.7
Anthropic
Arena ~1500LMArena (текст)
Предыдущее поколение флагмана Anthropic — по-прежнему на фронтир-уровне. Хороший выбор, если важна проверенная стабильность.
  • Фронтир-уровень рассуждений
  • Надёжность в продакшене
  • Сильная работа с длинным контекстом
Что делает
  • Стабильный бэкенд для продакшн-ассистента
  • Длинные документы и юридические тексты
  • Сложный анализ, где важна предсказуемость ответа
Сопоставимо с Opus 4.8Открыть
#5
Grok 4.3
xAI
Arena ~1483 (4.1 Thinking)LMArena (текст) + Artificial Analysis
Reasoning-модель xAI с прямым доступом к актуальным данным X в реальном времени. Сильна там, где важна свежесть информации и анализ новостей.
  • Поиск и анализ в реальном времени (данные X)
  • Сильный reasoning-режим
  • Снижена цена в версии 4.3
Что делает
  • Анализ свежих новостей и трендов с актуальными данными
  • Мониторинг обсуждений в X по теме в реальном времени
  • Reasoning-задачи с проверкой фактов на лету
≈ $1.25 / $2.50 за 1M токеновОткрыть
#6
DeepSeek V3.2
DeepSeek
Arena ~1450 · топ open-weightsLMArena (текст) + Artificial Analysis
Лучший open-weights выбор по соотношению цена/качество. Сильна в рассуждениях и коде, в разы дешевле закрытого фронтира — рабочая лошадка для пайплайнов.
  • Лучшее соотношение цена/качество среди открытых моделей
  • Сильные рассуждения и работа с кодом
  • Открытые веса — можно хостить самому
Что делает
  • Бюджетная замена Claude/GPT в массовых пайплайнах
  • Написание длинных аналитических отчётов
  • Кодинг-ассистент с рассуждениями за копейки
≈ $0.27 / $1.10 за 1M токеновОткрыть
#7
Qwen3-Max
Alibaba
Топ-3 на Text Arena · SWE-bench 69.6%LMArena (текст) + Tau2-Bench
Сильнейшая закрытая модель Alibaba: топ-3 на Text Arena, обходит GPT-5-Chat в превью. Особенно хороша в агентных и многоязычных (CJK) задачах.
  • Топ-3 на LMArena (текст)
  • Сильная агентная работа с инструментами (Tau2-Bench 74.8)
  • Лучшая многоязычность для китайского/азиатских языков
Что делает
  • Агентные задачи с вызовом инструментов и API
  • Многоязычная обработка с упором на CJK
  • Длинноконтекстная аналитика документов
≈ $0.5–1.5 за 1M токенов (Alibaba Cloud)Открыть
#8
Kimi K2.7
Moonshot AI
LMArena 81/100 · #2 open-sourceLMArena (текст)
Топовая open-source модель Moonshot под MIT-лицензией: #2 среди открытых на текстовой арене. Сильна в агентных сценариях и длинном контексте.
  • #2 open-source на LMArena (текст)
  • Свободная MIT-лицензия
  • 128K контекст для длинных документов
Что делает
  • Открытая замена Claude Sonnet для своих сервисов
  • Анализ длинных документов и переписок
  • Агентные рабочие процессы без вендор-лока
≈ $0.5–1 за 1M токенов (OpenRouter/Moonshot)Открыть