Чат-боты ИИ тупеют после длительного общения с людьми

21.02.2026, 15:51

Опубликованы результаты исследования Microsoft.

Новое совместное исследование Microsoft Research с Salesforce демонстрирует, что популярные чаты боты на ИИ глупеют после длительного общения с людьми. Суммарный уровень ошибок может вырасти более чем на 100% при анализе свыше 200 тысяч бесед.

В последние годы ведущие IT-разработчики представили целую линейку продвинутых больших языковых моделей, стремясь закрепить лидерство на рынке. Тем не менее пользователи регулярно жалуются на «галлюцинации» и неверные ответы. Новая научная работа подтверждает: даже самые умные нейросети нередко «теряются» в разговоре, когда задача разбивается на естественный диалог из нескольких реплик.

В ходе эксперимента эксперты изучили более 200 000 диалогов с участием флагманских LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet и DeepSeek R1. Если при одиночных запросах такие модели демонстрируют практически 90% успешных ответов, то в длинных беседах с уточнениями и дополнительными вопросами показатель падает до 65%. Иными словами, по мере усложнения контекста эффективность заметно снижается.

Исследователи обнаружили еще одно любопытное явление – «раздувание ответов». В многоходовых диалогах ответы моделей становились длиннее на 20–300%. Вместе с объемом росло и количество допущений и галлюцинаций, которые затем закреплялись в контексте разговора и использовались как основа для последующих реплик. Причем даже модели с расширенными «токенами размышления», такие как OpenAI o3 и DeepSeek R1, не смогли полностью избежать этого эффекта.

Авторы подчеркивают, что резкое ухудшение качества в длинных беседах не означает, что модели «тупеют» в буквальном смысле – скорее, это указывает на их ограниченность в удержании и правильной интерпретации большого объема информации в ходе диалога. Несмотря на это, ИИ все еще демонстрирует впечатляющие способности при ответах на отдельные запросы.

Как отмечает Windows Central, такие особенности следует учитывать при использовании чат-ботов в продуктах, ориентированных на длительное взаимодействие с пользователем. Возможные ошибки и галлюцинации могут ввести людей в заблуждение, особенно если пользователь полагается на ИИ как на источник точной и критически важной информации.

Сегодня ChatGPT занимает более 80% мирового рынка чат-ботов. Ближайшие соперники – Perplexity и Google Gemini. На них приходится доля в 15% от всех пользователей.

Чат-боты ИИ тупеют после длительного общения с людьми

последние новости