Як обрати між OpenAI, Claude та Hermes для AI-агента
Будь-який AI-проєкт у мене починається з тієї самої розвилки: яку модель поставити в reasoning-шар? OpenAI, Anthropic чи одну з відкритих, типу Hermes? Універсального переможця немає — кожна модель найкраща в чомусь конкретному. Розкладаю матрицю, якою я реально користуюсь, коли вибираю.
Версія на 60 секунд
- Claude Opus 4.7 — найкращий default для агентів з tool use, довгим контекстом (1М токенів) і складним розмірковуванням. Повільніший і дорожчий за токен, але промптів пишеш менше.
- GPT-5 / GPT-5 Mini — найкращий для агентів, де важлива швидкість і обʼєм. Найдешевший шлях для chat-style асистентів і structured outputs.
- Hermes 4 / open models — найкращий для EU/UA data-residency, повного володіння, регульованих галузей. Дорожче в інженерії на старті, майже нуль за токени в довгу.
Раунд 1: довгий контекст
Скільки можна напхати в один промпт без втрати уваги.
- Claude Opus 4.7 — 1М токенів, найсильніший retrieval-in-context, який я міряв. Читає 600-сторінкові PDF і точно відповідає на питання вглиб.
- GPT-5 — 400К контексту, дуже швидкий на retrieval, але «скімить» після 250К. Для більшого об'єму парте з нормальним RAG.
- Hermes 4 (70B) — 128К контексту на self-hosted. Достатньо для 95% реальних задач, особливо з RAG.
Правило: вище ~200К токенів активного reasoning — тільки Claude без retrieval-шару. Нижче — всі три життєздатні.
Раунд 2: tool use і function calling
Тут агент живе або помирає. Модель має вирішити, яку функцію викликати, коли, з якими аргументами, і як реагувати на результат.
- Claude — найкращий multi-tool reasoning. Вибирає правильний інструмент з 20+ кандидатів з точністю ~96% у моїх eval-ах. Сильний у ланцюжках 5-7 викликів без втрати початкової мети.
- GPT-5 — трохи позаду Claude на multi-tool, але швидше. ~93% точність вибору інструмента, нижча latency (300-600 мс). Чудовий для high-throughput агентів.
- Hermes 4 — потребує акуратнішого промпта і жорсткого JSON-схема, але з fine-tune доходить до ~91% на звуженому наборі інструментів.
Раунд 3: латентність
Час до першого токена і throughput.
- GPT-5 Mini— 200-400 мс TTFT, 90-130 ток/сек. Найкращий для voice-агентів і Telegram-ботів, де відповідь > 2 сек відчувається як «мертво».
- Claude Haiku 4.5 — 300-500 мс TTFT, 70-110 ток/сек. Сумісно, з кращим reasoning у тій самій швидкісній тарифі.
- Claude Opus 4.7 — 600-1200 мс TTFT. Не для real-time чату, ідеальний для back-office агентів і аналізу.
- Hermes 4 (self-hosted) — повністю залежить від GPU. На 2× H100 — ~250 мс TTFT і 60 ток/сек.
Раунд 4: ціна
Реальні цифри з production — input + output разом за середній ход агента.
- Claude Opus 4.7 — ~$15 / 1М input, $75 / 1М output. Дорого, але retry-роботи менше.
- Claude Sonnet 4.5 — ~$3 / 1М input, $15 / 1М output. Мій default на 80% проєктів.
- GPT-5 — ~$5 / 1М input, $20 / 1М output. Конкурентно з Sonnet.
- GPT-5 Mini — ~$0.40 / 1М input, $1.60 / 1М output. Найдешевший для chat-style high-volume.
- Hermes 4 self-hosted — $0 за токен, але $400-1 200 на місяць за GPU. Точка беззбитковості — ~50М токенів/міс.
Раунд 5: EU/UA-комплаєнс і data residency
Для українських і EU-клієнтів у fintech, healthcare і держсекторі — цей раунд часто вирішальний.
- Claude через AWS Bedrock (EU-регіон) — GDPR-сумісний, дані лишаються у Франкфурті або Парижі. Мій default для EU-клієнтів.
- OpenAI через Azure OpenAI (EU) — теж GDPR-сумісний, тільки enterprise. Трохи більше тертя при налаштуванні.
- Hermes 4 on-prem або на EU-VPS — повний контроль даних, жодний третій сервіс не торкається промпта. Єдиний шлях, який проходить для закритих українських держконтрактів і більшості банків.
Матриця рішень, якою я користуюсь
Коли клієнт каже...
- «Telegram-бот, < 2 сек відповідь, 10К повідомлень/день» → GPT-5 Mini або Claude Haiku 4.5.
- «Multi-agent система з 5+ спеціалізованими агентами» → Claude Sonnet 4.5 для orchestrator, Haiku для специалістів.
- «Прочитати 100-сторінкові контракти і знайти аномалії» → Claude Opus 4.7. Нічого іншого близько немає.
- «Банк, fintech, міністерство — дані лишаються в Україні» → Hermes 4 self-hosted на українському дата-центрі. Винятків немає.
- «Voice-агент, який відповідає на телефон» → GPT-5 Mini за швидкість, або Claude Haiku 4.5, якщо reasoning важливіший за 100 мс.
- «Найдешевший MVP, який ще працює» → Claude Sonnet 4.5. Найкраща якість-на-долар у 2026.
Що я більше НЕ рекомендую
- GPT-4o / GPT-4 Turbo — застарілі для агентів. GPT-5 Mini обходить GPT-4o на tool use за п'яту частину ціни.
- Llama 3.x base для агентів — Hermes 4 — це fine-tune, який вам реально потрібен. Base Llama галюцинує tool calls.
- Gemini для tool use — швидкий, але точність tool-calling все ще позаду Claude і GPT-5 у моїх eval-ах. Норм для single-turn summarization.
Чого б я НЕ змішував в одному стеку
Спокуса-пастка: «давайте Claude для reasoning і GPT-5 для embeddings». Cross-vendor latency, два білінги, два SDK-стилі, два failure modes. Виберіть одного постачальника як хребет, другого — лише коли є виміряна причина: наприклад, self-hosted Hermes для чутливих PII, Claude — для решти.
Рекомендація під use-case
E-commerce / SaaS / агенції — Claude Sonnet 4.5 як default. Найкращий баланс якості, швидкості та ціни. Переходьте на Opus 4.7, лише якщо виміряли, що Sonnet ламається на ваших edge-cases.
Високооб'ємний support / Telegram / voice — GPT-5 Mini. Дешевий, щоб робити retry, швидкий, щоб не відчувався ботом. Слідкуйте за OpenAI-білом — легко 10× за ніч.
Регульовані галузі (fintech, healthcare, держсектор) — Hermes 4 self-hosted, з Claude через Bedrock як fallback для нечутливих потоків. Дорожче в інженерії, рятує від будь-якого наративу про витік даних.
Не впевнені, яка модель пасує вашому кейсу?
Я не продаю моделі. Я допомагаю обрати ту, що відповідає вашим обмеженням. 30 хвилин дзвінка — слухаю процес, обсяги, рівень комплаєнсу, і кажу, куди яку модель ставити. Чесно, без апселу.