Технологии

“Последний экзамен человечества”: ИИ через год будет знать больше всех экспертов-людей

Опубликовано:

5 часов назад

Искусственный интеллект показал способность превзойти лучших ученых

Разработчики утверждают, что искусственный интеллект (ИИ) в течение нескольких месяцев будет готов к сдаче одного из самых сложных в мире тестов на знание, получившего название «Последний экзамен человечества» (HLE).

Искусственный интеллект показал способность превзойти лучших ученых Фото: создано с помощью нейросети gigachat

Тест HLE был создан техническими руководителями, чтобы показать, насколько интеллектуальны их системы, и состоит из 2500 тщательно подобранных вопросов, охватывающих около сотни тем — от ракетостроения и мифологии до физиологии.

Каждый из них, пишет Daily Mail, требует, по крайней мере, докторского уровня знаний, и достижение результата, даже близкого к 100 процентам, принесло бы кому-то звание «универсального эксперта». Всего два года назад хваленая система ChatGPT от OpenAI набрала на экзамене жалкие 3%, в то время как ее конкуренты из Google и Anthropic показали не намного лучшие результаты.

Этот тест помог развеять опасения по поводу растущего господства искусственного интеллекта, и исследователи заявили, что он доказал «заметный разрыв» между крупными языковыми моделями (LLM) и лучшими учеными мира. Но, казалось бы, невыполнимый тест может оказаться еще одной вехой в неудержимом росте ИИ, констатирует Daily Mail. В прошлом месяце Google Gemini набрал впечатляющие 45,9% на экзамене, достигнув 18,8% в течение нескольких месяцев после первой попытки.

И, по словам Кэлвина Чжана, руководителя исследования в компании Scale, занимающейся искусственным интеллектом и стоящей за HLE, на горизонте не за горами окончательные результаты. «Мы хотели создать этот всеобъемлющий академический тест, ориентированный на уровень опытных людей, который по-настоящему может решить лишь горстка людей на земле, — сказал он. – За последние несколько лет мы стали свидетелями невероятного прогресса в разработке этих языковых моделей. Это впечатляет, разработчики моделей действительно проделали огромную работу по улучшению этих логических моделей».

Кейт Ольшевска, менеджер по продуктам Google DeepMind, добавила: «Если бы мы действительно заботились об этом как о единственной вещи в жизни, я думаю, мы смогли бы добиться этого довольно быстро».

Компания Anthropic, разработавшая систему искусственного интеллекта Claude, набрала 34,2% баллов в HLE и продолжает быстрыми темпами повышать свои показатели.

По словам авторов теста, искусственный интеллект, набравший на экзамене 100% баллов, стал бы значительным достижением, учитывая, что тест «задуман как окончательный закрытый академический тест такого рода». Это означает, что если технология взломает HLE, в будущем ее нужно будет протестировать на вопросах, на которые ни один человек не знает ответа, поясняет Daily Mail.

Тест был создан исследователями из Scale и некоммерческой организацией Center for AI Safety, чтобы проверить как широту знаний ИИ, так и глубину его рассуждений. Эксперты примерно из 50 стран представили на рассмотрение 70 000 вопросов в ответ на глобальный призыв в сентябре 2024 года, в рамках которого предлагался призовой фонд в размере 500 000 долларов. Они должны были содержать короткий и однозначный ответ, который было трудно найти в Интернете. Список был сокращен до 13 000 после того, как были сняты с рассмотрения вопросы, на которые могла ответить любая существующая модель. Некоторые из 2500 отобранных моделей были удалены или отредактированы после получения отзывов от пользователей. Тест требует широкого спектра знаний — от знания биологии до владения иностранными языками.

Успех в HLE вызвал бы воспоминания о том, как суперкомпьютер IBM Deep Blue победил чемпиона мира по шахматам Гарри Каспарова* (внесён Минюстом России в реестр «иностранных агентов», а Росфинмониторинг включил его в список террористов и экстремистов) в 1997 году, опровергнув прогнозы большинства экспертов.

С тех пор был улучшен ряд основных тестов для ИИ, включая мультидисциплинарный инструмент Massive Multitask Language Understanding, выпущенный в 2020 году, который был закрыт после того, как системы стали находить его слишком простым и часто набирали более 90 процентов баллов.

Кейт Ольшевска добавила, что по мере того, как искусственный интеллект приближается к той стадии, когда он может справиться с тестами, созданными человеком, расширение существующих границ человеческих знаний все чаще становится главной задачей разработчиков. Но, по словам Чжана, всегда будет место для специализации человека, поскольку ИИ сложнее овладеть физическими областями, такими как хирургия, а также навыками, основанными на принятии решений, включая рассудительность и креативность.

In this article:

Оставить комментарий

Апрель 2026
Пн	Вт	Ср	Чт	Пт	Сб	Вс
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Общество

Погиб перед олимпиадой по информатике: выяснились обстоятельства гибели школьника в московской гостинице

Подросток погиб, выпав с 21-го этажа здания гостиницы 17-летний подросток приехал на олимпиаду для выпускников и выпал с 21-го этажа здания гостиницы на востоке...

Редактор27.03.2026

Политика

Последний год КГБ. Операция «Ламбада»

Детективная повесть, основанная на реальных событиях Фрагмент из новой книги, который вы сейчас прочтете, интересен хотя бы тем, что одним из авторов предисловия к...

Редактор18.03.2026

Культура

Стас Михайлов представил дуэт с Наташей Королевой на концерте в Москве

МОСКВА, 8 мар. Народный артист России Стас Михайлов представил дуэт «Никто не знает» с заслуженной артисткой РФ Наташей Королевой на концерте в Москве в...

Редактор09.03.2026

Общество

В Армавире локализовали пожар на нефтебазе после атаки БПЛА

МОСКВА, 8 мар. Пожар на нефтебазе в Армавире локализован на площади 700 квадратных метров, сообщил оперштаб Краснодарского края.Ранее ведомство сообщило что на территории нефтебазы...

Редактор08.03.2026

Leave a Reply Отменить ответ

Leave a Reply

Технологии

Российские космонавты оценили внимание властей к отрасли

Технологии

Россия будет исследовать Марс с США, Китаем и Индией, считает космонавт

Общество

На экс-главу отдела Ространснадзора по СКФО завели дело о взятках

Общество

Губернатор Запорожской области сообщил о возможных отключениях света

Технологии

Рекорд по дальности полета, солнечное затмение, занятия «греблей» над Луной: чем удивляет «Артемида-2»

Технологии