Даніл Курка·24 травня 2026·8 хв читати

Як обрати між OpenAI, Claude та Hermes для AI-агента

Будь-який AI-проєкт у мене починається з тієї самої розвилки: яку модель поставити в reasoning-шар? OpenAI, Anthropic чи одну з відкритих, типу Hermes? Універсального переможця немає — кожна модель найкраща в чомусь конкретному. Розкладаю матрицю, якою я реально користуюсь, коли вибираю.

Версія на 60 секунд

Claude Opus 4.7 — найкращий default для агентів з tool use, довгим контекстом (1М токенів) і складним розмірковуванням. Повільніший і дорожчий за токен, але промптів пишеш менше.
GPT-5 / GPT-5 Mini — найкращий для агентів, де важлива швидкість і обʼєм. Найдешевший шлях для chat-style асистентів і structured outputs.
Hermes 4 / open models — найкращий для EU/UA data-residency, повного володіння, регульованих галузей. Дорожче в інженерії на старті, майже нуль за токени в довгу.

Раунд 1: довгий контекст

Скільки можна напхати в один промпт без втрати уваги.

Claude Opus 4.7 — 1М токенів, найсильніший retrieval-in-context, який я міряв. Читає 600-сторінкові PDF і точно відповідає на питання вглиб.
GPT-5 — 400К контексту, дуже швидкий на retrieval, але «скімить» після 250К. Для більшого об'єму парте з нормальним RAG.
Hermes 4 (70B) — 128К контексту на self-hosted. Достатньо для 95% реальних задач, особливо з RAG.

Правило: вище ~200К токенів активного reasoning — тільки Claude без retrieval-шару. Нижче — всі три життєздатні.

Раунд 2: tool use і function calling

Тут агент живе або помирає. Модель має вирішити, яку функцію викликати, коли, з якими аргументами, і як реагувати на результат.

Claude — найкращий multi-tool reasoning. Вибирає правильний інструмент з 20+ кандидатів з точністю ~96% у моїх eval-ах. Сильний у ланцюжках 5-7 викликів без втрати початкової мети.
GPT-5 — трохи позаду Claude на multi-tool, але швидше. ~93% точність вибору інструмента, нижча latency (300-600 мс). Чудовий для high-throughput агентів.
Hermes 4 — потребує акуратнішого промпта і жорсткого JSON-схема, але з fine-tune доходить до ~91% на звуженому наборі інструментів.

Раунд 3: латентність

Час до першого токена і throughput.

GPT-5 Mini— 200-400 мс TTFT, 90-130 ток/сек. Найкращий для voice-агентів і Telegram-ботів, де відповідь > 2 сек відчувається як «мертво».
Claude Haiku 4.5 — 300-500 мс TTFT, 70-110 ток/сек. Сумісно, з кращим reasoning у тій самій швидкісній тарифі.
Claude Opus 4.7 — 600-1200 мс TTFT. Не для real-time чату, ідеальний для back-office агентів і аналізу.
Hermes 4 (self-hosted) — повністю залежить від GPU. На 2× H100 — ~250 мс TTFT і 60 ток/сек.

Раунд 4: ціна

Реальні цифри з production — input + output разом за середній ход агента.

Claude Opus 4.7 — ~$15 / 1М input, $75 / 1М output. Дорого, але retry-роботи менше.
Claude Sonnet 4.5 — ~$3 / 1М input, $15 / 1М output. Мій default на 80% проєктів.
GPT-5 — ~$5 / 1М input, $20 / 1М output. Конкурентно з Sonnet.
GPT-5 Mini — ~$0.40 / 1М input, $1.60 / 1М output. Найдешевший для chat-style high-volume.
Hermes 4 self-hosted — $0 за токен, але $400-1 200 на місяць за GPU. Точка беззбитковості — ~50М токенів/міс.

Раунд 5: EU/UA-комплаєнс і data residency

Для українських і EU-клієнтів у fintech, healthcare і держсекторі — цей раунд часто вирішальний.

Claude через AWS Bedrock (EU-регіон) — GDPR-сумісний, дані лишаються у Франкфурті або Парижі. Мій default для EU-клієнтів.
OpenAI через Azure OpenAI (EU) — теж GDPR-сумісний, тільки enterprise. Трохи більше тертя при налаштуванні.
Hermes 4 on-prem або на EU-VPS — повний контроль даних, жодний третій сервіс не торкається промпта. Єдиний шлях, який проходить для закритих українських держконтрактів і більшості банків.

Матриця рішень, якою я користуюсь

Коли клієнт каже...

«Telegram-бот, < 2 сек відповідь, 10К повідомлень/день» → GPT-5 Mini або Claude Haiku 4.5.
«Multi-agent система з 5+ спеціалізованими агентами» → Claude Sonnet 4.5 для orchestrator, Haiku для специалістів.
«Прочитати 100-сторінкові контракти і знайти аномалії» → Claude Opus 4.7. Нічого іншого близько немає.
«Банк, fintech, міністерство — дані лишаються в Україні» → Hermes 4 self-hosted на українському дата-центрі. Винятків немає.
«Voice-агент, який відповідає на телефон» → GPT-5 Mini за швидкість, або Claude Haiku 4.5, якщо reasoning важливіший за 100 мс.
«Найдешевший MVP, який ще працює» → Claude Sonnet 4.5. Найкраща якість-на-долар у 2026.

Що я більше НЕ рекомендую

GPT-4o / GPT-4 Turbo — застарілі для агентів. GPT-5 Mini обходить GPT-4o на tool use за п'яту частину ціни.
Llama 3.x base для агентів — Hermes 4 — це fine-tune, який вам реально потрібен. Base Llama галюцинує tool calls.
Gemini для tool use — швидкий, але точність tool-calling все ще позаду Claude і GPT-5 у моїх eval-ах. Норм для single-turn summarization.

Чого б я НЕ змішував в одному стеку

Спокуса-пастка: «давайте Claude для reasoning і GPT-5 для embeddings». Cross-vendor latency, два білінги, два SDK-стилі, два failure modes. Виберіть одного постачальника як хребет, другого — лише коли є виміряна причина: наприклад, self-hosted Hermes для чутливих PII, Claude — для решти.

Не впевнені, яка модель пасує вашому кейсу?

Я не продаю моделі. Я допомагаю обрати ту, що відповідає вашим обмеженням. 30 хвилин дзвінка — слухаю процес, обсяги, рівень комплаєнсу, і кажу, куди яку модель ставити. Чесно, без апселу.

Написати @tribeofdanel →