Скільки часу займає розробка AI-агента
«Скільки часу?» — друге питання після «скільки коштує?». Чесна відповідь — не «два тижні» і не «півроку». Для production AI-агента, який виконує одну реальну задачу для реального бізнесу, плануйте 6-10 тижнів. Розкладаю по тижнях — що відбувається, що сповільнює, що залежить від вас.
Тиждень 1 — discovery + ТЗ
Я виділяю 5-7 робочих днів і не пропускаю. Тиждень виглядає так:
- Дні 1-2. Інтервʼю по процесу. Я сідаю з тими, хто робить цю роботу сьогодні, і документую кожен крок, кожне рішення, кожен edge-case. Output: 6-10 сторінковий process-doc.
- День 3. Stack-рішення. Яка модель куди, які інтеграції, де живуть дані, де крутиться агент.
- Дні 4-5. Eval-сет. Пишемо 30-80 прикладів вхідних даних з очікуваними outputs. Це контракт — коли агент проходить ці приклади, релізимо.
- Дні 6-7. ТЗ + lock бюджету. Один документ, підписаний обома сторонами. Двері scope-creep тут зачиняються.
Пропустити цей тиждень — причина №1, чому проєкти подвоюються в тривалості. Без eval-сету ви не знаєте, що означає «готово», і нескінченно полірувате.
Тижні 2-3 — MVP + перше демо
Два тижні, щоб зрелізити те, що клієнт може зламати власноруч. Цілі:
- Тиждень 2. Підключаємо модель, system prompt і перші 2-3 tool-функції. Прогонимо проти половини eval-сету. Ціль: pass rate 70%+.
- Тиждень 3. Інтегруємо першу реальну систему (зазвичай Telegram або CRM клієнта). Живе демо в кінці тижня — клієнт вкидає 20 реальних запитів, разом дивимось outputs.
Демо — чесне, не glossy. Щось ламається. У цьому і сенс — що зламалось тут, ми лагодимо на тижні 4.
Тижні 4-6 — інтеграції + ітерація
Найдовша і найбрудніша фаза. Тут більшість проєктів пливе. Щотижня:
- Додаємо 1-2 інтеграції (БД, ERP, платіжки, email, календар). Кожна — півдня до двох днів, залежить від якості API.
- Додаємо tool-функції (надіслати інвойс, створити лід, знайти замовлення). Кожна функція тестується, обробляються помилки, логується.
- Тюнимо промпти на новій edge-cases з реальних користувачів.
- Прогін eval у кінці кожного тижня. Дивимось pass rate у динаміці і не релізимо нижче 90%.
Типовий темп: 2 інтеграції + 4 tool-функції на тиждень. Швидкість майже повністю залежить від якості існуючих API клієнта. Чистий Stripe-style API — півдня. PHP-моноліт 2017 року з недокументованими endpoints — два тижні неохочого reverse engineering.
Тижні 7-8 — production hardening
Цей тиждень фрілансери найчастіше ріжуть. Не ріжте. Production hardening — це те, що відрізняє агента, який працює в демо, від агента, який переживає Black Friday-трафік.
- Rate limiting і retries — що буде, коли OpenAI деградує на 4 години? Коли CRM лежить? Агент має ставити в чергу, retry-ти, gracefully деградувати, а не панікувати.
- Observability — Langfuse або Helicone. Кожен турн агента залогований, кожен tool call протрейсений, кожен cost відслідковується. Без цього ви сліпі на 30-й день.
- Alerting — Slack-пінг, коли pass rate падає нижче 90%, коли латентність більше 5 сек p95, коли token-білл неочікувано підскочив.
- Документація + handover — runbook для команди, one-pager для власника, повна архітектурна дока для того, хто успадкує кодбейз.
Разом: 6-8 тижнів на «одного хорошого агента»
Це чесний baseline для одного production-агента з 2-4 інтеграціями і 6-10 tool-функціями. Multi-agent системи (3+ агентів зі спільною памʼяттю і оркестрацією) — додавайте 3-6 тижнів зверху.
Що сповільнює проєкти (за рівнем шкоди)
- Невизначені stakeholders. «Дайте я спитаю CFO» — кожен такий випадок 3-5 робочих днів утрати. Назначте вирішувача на перший день.
- Legacy API без документації. «У нас є API, але ніхто не записав endpoints». +тиждень на інтеграцію.
- Scope creep. «А ще можна, щоб робив X?» Так, у v2. Lock-нуте ТЗ у кінці тижня 1 рятує таймлайн.
- Очікування ідеального MVP. Демо в кінці тижня 3 має бути потворним. Полірувати тут — затримати інтеграції на 5-10 днів без бізнес-цінності.
- Eval-сет churn. Клієнт постійно міняє, що означає «добре». Lock-ніть eval-сет на тижні 1, лише розширюйте, не переозначайте.
Що прискорює проєкти
- Реальний eval-сет на 5-й день. Ви знаєте, коли ви готові. Скорочує polish-фазу на 50%.
- Один вирішувач, доступний у Telegram протягом години в робочий час. Рішення за хвилини, не за дні.
- Чисті, вже існуючі API. Якщо ваша CRM має задокументований REST або GraphQL шар — економите 2-3 тижні.
- Sandbox-середовище. Агент може ламати речі в staging без чіпання продакшен-даних. Дозволяє ітерувати в 5× швидше.
Коли 6 тижнів недостатньо
Деякі проєкти чесно потребують 10-14 тижнів. Типові причини:
- 5+ зовнішніх інтеграцій, кожна з auth flow і rate limits.
- Регульована галузь (fintech, healthcare, держсектор) — audit log, шифрування, role-based access на кожну дію.
- Self-hosted open model (Hermes, Llama) — лише інфраструктура додає 2-3 тижні.
- Multi-language агент (UA + EN + RU + PL) — eval-сет втричі більший, бюджет латентності стискається.
Коли 6 тижнів — забагато
Деякі скоупи відвантажуються за 2-3 тижні. Telegram-бот, що відповідає на FAQ з knowledge base і букає дзвінок, коли користувач кваліфікований — у мене це йшло 12 робочих днів. Одна інтеграція, один сценарій, малий eval-сет, без compliance-бару.
Хочете реальний таймлайн на свій кейс?
30 хвилин дзвінок. Я слухаю скоуп, інтеграції, пропускну здатність команди — і чесно кажу: 3 тижні, 6 тижнів, або «ще не готові, зробіть спочатку оці три речі». Без padding-у, без страхового графіка.