Сравнение ИИ-ассистентов 2025

Детальное сравнение ведущих AI-помощников для выбора лучшего решения

Anthropic • Май 2025

Контекст: 200K токенов

Цена: $15 вход / $75 выход

Сильные стороны:

ПрограммированиеАгентные задачиСложное рассуждение

OpenAI • Апрель 2025

Контекст: 200K токенов

Цена: $10 вход / $40 выход

Сильные стороны:

МатематикаНаучные задачиИнструменты

Google • Май 2025

Контекст: 1M+ токенов

Цена: $1.25-2.50 вход / $10-15 выход

Сильные стороны:

МультимодальностьВидеоДлинный контекст

Сравнительная таблица

Категория	Claude 4	ChatGPT o3	Gemini 2.5 Pro
Программирование (SWE-bench)	72.5%	69.1%	63.8%
Терминальное программирование	43.2%	30.2%	25.3%
Научное рассуждение (GPQA)	83.3%	83.3%	83.0%
Математика (AIME 2025)	90.0%	88.9%	83.0%
Визуальное рассуждение (MMMU)	76.5%	82.9%	79.6%
Работа с видео (VideoMME)	Н/Д	Н/Д	84.8%
Многоязычность (MMLU)	88.8%	88.7%	88.6%
Использование инструментов	81.4%	70.4%	Н/Д

Лучший результат

Равные результаты

Н/ДНет данных

* Значение 0 означает отсутствие данных или поддержки функции

Лидер в программировании и сложных аналитических задачах. Показывает лучшие результаты в SWE-bench (72.5%) и Terminal-bench (43.2%).

Лучше всего для: Разработка ПО, отладка кода, сложные алгоритмы

Сбалансированная модель с отличными возможностями рассуждения. Превосходит в математике (88.9% AIME) и научных задачах.

Лучше всего для: Общие задачи, образование, анализ данных

Мультимодальный лидер с огромным контекстным окном (1M+ токенов). Лучший в работе с видео (84.8% VideoMME) и веб-разработке.

Лучше всего для: Исследования, мультимедиа, длинные документы