Чат-боты ШІ дурнеюць пасля працяглых зносін з людзьмі
- 21.02.2026, 15:51
Апублікаваныя вынікі даследавання Microsoft.
Новае сумеснае даследаванне Microsoft Research і Salesforce дэманструе, што папулярныя чат-боты на базе ШІ дурнеюць пасля працяглых зносін з людзьмі. Сумарны ўзровень памылак можа павялічыцца больш як на 100% пры аналізе звыш 200 тысяч размоў.
У апошнія гады вядучыя ІТ-распрацоўшчыкі прадставілі цэлую лінейку прасунутых вялікіх моўных мадэляў, імкнучыся замацаваць лідарства на рынку. Тым не менш карыстальнікі рэгулярна скардзяцца на «галюцынацыі» і няправільныя адказы. Новая навуковая праца пацвярджае: нават самыя разумныя нейрасеткі нярэдка «губляюцца» ў размове, калі задача разбіваецца на натуральны дыялог з некалькіх рэплік.
У ходзе эксперыменту эксперты вывучылі больш за 200 000 дыялогаў з удзелам флагманскіх LLM, уключаючы GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet і DeepSeek R1. Калі пры адзінкавых запытах такія мадэлі дэманструюць амаль 90% паспяховых адказаў, то ў доўгіх размовах з удакладненнямі і дадатковымі пытаннямі паказчык падае да 65%. Іншымі словамі, па меры ўскладнення кантэксту эфектыўнасць прыкметна зніжаецца.
Даследчыкі выявілі яшчэ адну цікавую з’яву — «надзіманне адказаў». У шматхадовых дыялогах адказы мадэляў станавіліся даўжэйшымі на 20–300%. Разам з аб’ёмам расла і колькасць дапушчэнняў і галюцынацый, якія затым замацоўваліся ў кантэксце размовы і выкарыстоўваліся як аснова для наступных рэплік. Пры гэтым нават мадэлі з пашыранымі «токенамі разважання», такія як OpenAI o3 і DeepSeek R1, не змаглі цалкам пазбегнуць гэтага эфекту.
Аўтары падкрэсліваюць, што рэзкае пагаршэнне якасці ў доўгіх размовах не азначае, што мадэлі «дурнеюць» у літаральным сэнсе — хутчэй, гэта ўказвае на іх абмежаванасць ва ўтрыманні і правільнай інтэрпрэтацыі вялікага аб’ёму інфармацыі падчас дыялогу. Нягледзячы на гэта, ШІ ўсё яшчэ дэманструе ўражлівыя здольнасці пры адказах на асобныя запыты.
Як адзначае Windows Central, такія асаблівасці варта ўлічваць пры выкарыстанні чат-ботаў у прадуктах, арыентаваных на працяглае ўзаемадзеянне з карыстальнікам. Магчымыя памылкі і галюцынацыі могуць увесці людзей у зман, асабліва калі карыстальнік абапіраецца на ШІ як на крыніцу дакладнай і крытычна важнай інфармацыі.
Сёння ChatGPT займае больш за 80% сусветнага рынку чат-ботаў. Бліжэйшыя канкурэнты — Perplexity і Google Gemini. На іх прыпадае доля ў 15% усіх карыстальнікаў.