GlobalGPT

GPT‑5.1 против Claude Sonnet 4.5: тщательное тестирование в области письма, программирования и автоматизации — неожиданный победитель

GPT‑5.1 против Claude Sonnet 4.5

Вчера ранним утром, OpenAI выпустила GPT-5.1. Я провел целый день, подвергая его тщательным практическим испытаниям, и результаты могут оказаться не такими, как вы ожидаете.

Если вы хотите опробовать GPT‑5.1 прямо сейчас, GlobalGPT уже интегрировал эту самую мощную модель.

chatgpt 5.2 globalgpt

Итог

Да, GPT‑5.1 демонстрирует реальный прогресс по сравнению с GPT‑5 три месяца назад. Но если вы надеялись на доминирующий, революционный скачок, вы можете быть разочарованы. Говоря прямо: во многих реальных задачах он все еще отстает. Клод Соннет 4.5.

Это не критиканство — это результаты тестирования. Я провел параллельные оценки в нескольких сценариях: написание длинных текстов, литературное сочинение, фронтенд-разработка и многое другое. Некоторые результаты были действительно удивительными.

Что изменилось в GPT‑5.1

OpenAI приняла решение прагматичный подход к этому обновлению. Когда три месяца назад был запущен GPT-5, возникли проблемы — пользователи сообщили о худшей производительности по сравнению с более старыми версиями, от математических ошибок до нестабильного кода. OpenAI обвинила в этом проблему “системы маршрутизации”, из-за которой ИИ не выбирал правильную внутреннюю модель для ответов.

В GPT‑5.1 изменения касаются трех основных областей:

  1. Двойные режимы.
    Мгновенный режим для быстрого общения в неформальных чатах; Режим мышления для сложных задач, динамически регулируя время рассуждений. Звучит многообещающе — и в моих тестах он действительно оказался более гибким, чем GPT‑5.
  2. Меньше галлюцинаций.
    Официальная статистика показывает, что частота галлюцинаций снизилась с 4,8% до 2,1%. На практике это означает, что человек скорее признается в том, что “не знает”, чем выдумывает что-то.
  3. Индивидуальные стили.
    Восемь выбираемых стилей общения, от формального до игривого. Это действительно полезно — вы можете подобрать стиль под конкретную ситуацию.

Результаты теста: письменная работа — явное поражение

Моим первым тестом было создание обеими моделями отчета по исследованию объемом 10 000 слов с использованием одного и того же репозитория открытого проекта в качестве исходного материала.

Результаты:

  • GPT‑5.1: ~31 000 символов
  • Клод Соннет 4.5: ~51 000 символов

Клод написал почти в два раза больше. Это не было единичным случаем — в ходе нескольких испытаний GPT-5.1, как правило, более сдержанный. Если вам нужны длинные, подробные отчеты, то Клод выходит вперед.

Во втором тесте я попросил написать статью объемом около 1000 слов с представлением проекта.

  • GPT‑5.1: Более 1600 слов, богатая техническая информация, но больше подходит для разработчиков.
  • Клод: Более 1400 слов, ближе к запрошенному объему, легко понятно для новичков.

Gemini 2.5 Pro оценил GPT‑5.1 как техническую документацию, а Claude — как научно-популярную литературу. Оба варианта имели свои достоинства, но Claude точно угадал количество слов и целевую аудиторию.

Литературное сочинение: Заметный разрыв

Этот тест действительно удивил меня. Я попросил их написать стихотворение в стиле “ци” династии Сун в Ванхайчао формат, тема “Осень сменяется зимой; плач по уходящему времени”, строго следуя правилам тональности.

  • Клод Соннет 4.5: Выполнено за 50 секунд, классические образы (иней, дикие гуси, лотосовые пруды), эмоции на месте, тональные правила в основном соблюдены, только одно незначительное тематическое отклонение.
  • GPT-5.1: Заняло больше времени, соответствовало правилам тона, но повторялись образы, неправильно использовалось выражение “новые побеги бамбука” (весенний образ), и текст казался жестким.

В классической поэзии, где важны образность и элегантность, GPT-5.1 отставал от Claude.

Разработка фронт-энда: смешанные результаты

Проверенные задачи:

  1. Анимация SVG: Кошка и собака гуляют по траве, облака и птицы в небе.
    • Животные GPT‑5.1 слишком абстрактны, чтобы их можно было различить;
    • Узнаваемые кошачьи/собачьи, лучшие птицы Клода.
  2. Дизайн пользовательского интерфейса: Панель управления ульем.
    • Claude’s был усовершенствован в плане цвета/макета/типографики;
    • GPT‑5.1 использовал тяжелые черные тона, что было менее привлекательно.
  3. Восстановление страницы из снимка экрана:
    • Оба верны;
    • Цвета Claude лучше совпадают, цвет фона GPT‑5.1 немного не совпадает.
  4. 3D-разработка (игра «Кубик Рубика» на Three.js):
    • Оба провалились. Клод показал куб, но кнопка “перемешать” не работала; GPT‑5.1 вообще не отобразил куб.

Сложные 3D-приложения по-прежнему недоступны для обоих.

Анимация на Python: Ничья

Забавное задание: представьте себе сортировку пузырьком с помощью 12 утят разного размера и одной мамы-утки, сортирующей их от самого маленького к самому большому.

  • Клод: Утки слишком большие/плотные, что затрудняет рассмотрение деталей, но логика верна.
  • GPT‑5.1: Более простые утки, меньшее различие в размерах, логика также верна.

Свежесть знаний: Клод Лидс

Даты окончания сбора информации:

  • GPT‑5.1: Июнь 2024 года
  • Клод Соннет 4.5: Январь 2025 года

Это разница в семь месяцев — значимая для передовых технологий и текущих событий.

Автоматизация браузера: улучшение GPT‑5.1

Протестировано в браузере Atlas от OpenAI: посетите блог, извлеките первую статью, перепишите ее и подготовьте к публикации на X.

GPT‑5.1 завершил работу за 1 минуту 5 секунд — быстрее, чем GPT‑5 — и справился с потоком без проблем, остановившись только перед публикацией (требуется проверка человеком). Это одно из его явных преимуществ перед предшественником.

Окончательный вердикт: прогресс есть, но не стоит ожидать слишком многого

Сильные стороны:

  • Реальное улучшение по сравнению с GPT‑5, особенно в плане уменьшения галлюцинаций и автоматизации браузера.
  • Практичные функции персонализации.
  • Вероятно, более сильные математические/программистские навыки (согласно официальным заявлениям).

Слабые стороны:

  • Длинные тексты по-прежнему остаются позади Клода.
  • Литературное творчество (поэзия, проза) менее изящное.
  • Эстетика дизайна пользовательского интерфейса слабее.
  • Не может управлять сложными 3D-приложениями.
  • Знания отстают от Клода.

Рекомендации:

  • Длинные отчеты → Клод
  • Писать со стилем/изобразительностью → Клод
  • Дизайн пользовательского интерфейса → Клод первый
  • Математика, программирование, логика → Попробуйте GPT‑5.1
  • Автоматизация браузера → GPT‑5.1 хорош
  • Неформальный чат/быстрый поиск → Оба варианта подходят

OpenAI пошла по пути наименьшего сопротивления — исправляя ошибки и улучшая пользовательский опыт — но не оторвалась от конкурентов. В некоторых областях она по-прежнему отстает.

Конкуренция в области искусственного интеллекта сейчас очень высока; каждая модель имеет свои сильные и слабые стороны. Разумным решением будет выбирать модель для каждой конкретной задачи, а не слепо придерживаться одной.

Мой совет: Если у вас есть Plus, подпишитесь на ChatGPT и Claude. Переключайтесь между ними по мере необходимости. Профессионалам рекомендуется опробовать оба сервиса, чтобы выбрать наиболее подходящий для вашего рабочего процесса.

Спустя три месяца после провала GPT-5 версия 5.1 работает стабильно, но не впечатляет.

Вы пробовали GPT‑5.1? Поделитесь своим опытом в комментариях.

Тестовая среда:

  • Дата: 14 ноября 2025 г.
  • GPT‑5.1: Режим мышления
  • Клод Соннет 4.5: Режим мышления
  • Задачи: написание длинных текстов, литературное творчество, фронтенд-разработка, анимация на Python, автоматизация браузера
Поделиться сообщением:

Похожие посты

GlobalGPT