Навукоўцы правялі вялікі экзамен для сучасных ШІ

15.03.2026, 21:14

Ён ахоплівае матэматыку, гуманітарныя навукі, прыродазнаўчыя дысцыпліны, старажытныя мовы і вузкаспецыялізаваныя тэмы.

Навукоўцы стварылі «Апошні экзамен чалавецтва» з 2 500 пытанняў, каб праверыць межы магчымасцяў штучнага інтэлекту, і нават самыя магутныя мадэлі не змаглі набраць больш за 50% правільных адказаў, піша New Voice.

Старыя тэсты ўжо не выяўляюць сапраўдных ведаў штучнага інтэлекту, таму амаль 1 000 экспертаў з усяго свету распрацавалі новы маштабны экзамен. Ён ахоплівае матэматыку, гуманітарныя навукі, прыродазнаўчыя дысцыпліны, старажытныя мовы і вузкаспецыялізаваныя тэмы. Кожнае пытанне мела дакладны і правяральны адказ і не магло быць хутка вырашана праз пошук у інтэрнэце.

«Калі ШІ пачынае добра выконваць чалавечыя тэсты, здаецца, што ён набліжаецца да чалавечага ўзроўню разумення. Але гэты экзамен нагадвае, што інтэлект — гэта не толькі распазнаванне шаблонаў, а глыбіня, кантэкст і спецыялізаваныя веды,» — патлумачыў Тунг Нгуен, прафесар камп'ютарных навук у Texas A&M.

Тэставанне паказала, што GPT-4o набраў 2,7%, Claude 3.5 Sonnet — 4,1%, OpenAI o1 — 8%. Наймацнейшыя сістэмы, уключаючы Gemini 3.1 Pro і Claude Opus 4.6, паказалі 40–50% правільных адказаў.

Мэта экзамену — не перамагчы штучны інтэлект, а выявіць, дзе сістэмы яшчэ адстаюць, і стварыць надзейны доўгатэрміновы эталон для ацэнкі ШІ. Паводле слоў Нгуена, высокія балы на старых тэстах не азначаюць сапраўднага інтэлекту, бо яны правяраюць толькі здольнасць выконваць канкрэтныя задачы, распрацаваныя для людзей.

Праект аб’яднаў экспертаў з розных галін: гісторыкаў, фізікаў, лінгвістаў, медыцынскіх даследчыкаў і навукоўцаў у галіне камп'ютарных навук, каб стварыць тэст, які паказвае рэальныя абмежаванні сучаснага ШІ.

Навукоўцы правялі вялікі экзамен для сучасных ШІ

Апошнія навіны