Там, где команды мечтают о «магической» модели, мы просто завариваем чай и считаем промахи: пока он остыл — бот уже стал умнее. Шутка, конечно… хотя нет. В мире чат-ботов прогресс чаще приносит не апгрейд параметров, а спокойная аналитика и короткая, дисциплинированная петля улучшений.
Секрет — в компактном следе. Логируйте только то, что ускоряет разбор: сообщение пользователя, решение ассистента (включая маршрутизатор), источники, финальный ответ, фолбэки, время до первого токена и до полного ответа. Такой лог читают, а значит — по нему действуют.
Дальше — единое правило «что считать неотвеченным». В зачёт идут только релевантные вопросы без опоры на источник, с фолбэком, низкой уверенностью или повторным переспрашиванием, а также конфликты с текущими знаниями. Всё остальное — оффтоп и его королевские высочества гардрейлы.
Гардрейлы — это не «злой фильтр», а вежливый швейцар: впустить, вежливо отказать или отправить на уточнение. Они держат рамки продукта, безопасность, политику, приватность, тон и цитирование. Раз в неделю смотрите пограничные кейсы, подкручивайте пороги, добавляйте примеры, следите за ложными блоками/пропусками. Если вопрос по делу, но фактов нет — не закручивайте гайки, пополните знания.
Теперь — ритм. Раз в неделю открываем очередь неотвеченных, группируем в кластеры и для каждого выбираем лекарство: усилить гардрейлы с понятным отказом или дописать маленькую статью/карточку для ретривера. Каждое изменение — одной строкой в чейнджлоге, через неделю проверяем, упал ли кластер. Движение важнее перфекционизма.
Ответственность не размываем: продукт — за Unanswered и Time to first fix, контент — за полноту/актуальность знаний, инженеры — за маршрутизацию, гардрейлы и фолбэки. Приватность — по умолчанию: маскирование PII, изоляция арендаторов, срок хранения, аудит доступа.
Какие метрики на витрине:
- Unanswered rate, Time to first fix, Acceptance
- Route mix, Retrieval coverage, средняя латентность
- Топ‑5 кластеров с трендом и следующей рекомендацией
Базовые ориентиры: Unanswered < 10% за 4 недели, медианный Time to first fix < 72 часов, Acceptance > 70% в пределах скоупа.
Через месяц доска молчит о старых болях: кластеры закрыты, новые вопросы приходят — старые уходят на пенсию. Бот уверенно держит рамки и честно говорит о границах. Пользователи доходят до результата быстрее — потому что система учится на промахах, а не хранит их под ковром.