„Ostatni egzamin ludzkości” rozpoczęty – nowe granice inteligencji maszynowej

W miarę jak systemy sztucznej inteligencji (AI) błyskawicznie wyrastają ponad tradycyjne testy akademickie, międzynarodowa grupa naukowców przedstawiła „Ostatni Egzamin Ludzkości” (HLE). To ambitny benchmark mający na celu zbadanie rzeczywistych granic możliwości AI w starciu z ekspercką wiedzą człowieka.

Sztuczna inteligencja rozwiązująca „Ostatni test na ludzkość”
fot. Nano Banan 2 (Gemini)

Kiedy najnowocześniejsze modele AI zaczęły osiągać niemal idealne wyniki w dotychczasowych testach, takich jak Massive Multitask Language Understanding (MMLU), badacze dostrzegli narastający problem. Egzaminy te przestały być wystarczająco trudne, aby rzetelnie oceniać postęp w rozwoju sztucznej inteligencji. W odpowiedzi na to wyzwanie, zespół blisko 1000 ekspertów opracował zestaw 2500 pytań, które mają stać się ostatecznym sprawdzianem dla maszyn.

Wyzwanie dla gigantów: Skala i precyzja HLE

Współautorem projektu jest dr Tung Nguyen, adiunkt z Texas A&M University, który pomógł w dopracowaniu pytań obejmujących matematykę, nauki humanistyczne, przyrodnicze oraz wysoce wyspecjalizowane dziedziny, takie jak tłumaczenie starożytnych inskrypcji palmyreńskich czy analiza struktur anatomicznych u ptaków.

„Kiedy systemy SI zaczynają osiągać wyjątkowo dobre wyniki w testach porównawczych z ludźmi, kuszące jest myślenie, że zbliżają się do poziomu zrozumienia na poziomie ludzkim” – mówi dr Nguyen. „HLE (z ang. Humanity’s Last Exam) przypomina nam jednak, że inteligencja to nie tylko rozpoznawanie wzorców – to głębia, kontekst i specjalistyczna wiedza”.

Rezultatem jest „Ostatni Egzamin Ludzkości” (HLE), test składający się z 2500 pytań, obejmujący matematykę, nauki humanistyczne, nauki przyrodnicze, języki starożytne oraz wysoce wyspecjalizowane dziedziny akademickie. Projekt został opisany w artykule opublikowanym w czasopiśmie „Nature”, a dodatkowe informacje można znaleźć na stronie lastexam.ai.

Jak testowano maszyny?

Każde pytanie w HLE musiało spełniać rygorystyczne kryteria:

  • Jedna weryfikowalna odpowiedź: Wykluczenie nieścisłości.
  • Odporność na wyszukiwarki: Odpowiedzi nie da się znaleźć za pomocą szybkiego wyszukiwania online.
  • Eliminacja prostych trafień: Każde pytanie najpierw przetestowano na wiodących modelach AI. Jeśli model odpowiedział poprawnie, pytanie było usuwane z egzaminu.

Wyniki: AI wciąż ma wiele do nauki

Wstępne testy przeprowadzone w styczniu 2026 roku pokazały, jak ogromna przepaść dzieli obecną technologię od pełnego mistrzostwa w specjalistycznych dziedzinach:

  • GPT-4o: uzyskał zaledwie 2,7%.
  • Claude 3.5 Sonnet: osiągnął 4,1%.
  • OpenAI o1: model zorientowany na rozumowanie zdobył 8%.
  • Gemini 3.1 Pro / Claude Opus 4.6: nowsze systemy poprawiły wyniki do około 40-50%, ale nadal nie wykazują pełnego opanowania materiału.

Narzędzie, nie zagrożenie

Mimo swojej dramatycznej nazwy, „Ostatni Egzamin Ludzkości” nie ma sugerować końca ery człowieka. Wręcz przeciwnie – ma służyć jako transparentny punkt odniesienia dla programistów i decydentów.

„To nie jest wyścig ze sztuczną inteligencją” – tłumaczy dr Nguyen. „To metoda pozwalająca zrozumieć, gdzie te systemy są silne, a gdzie mają problemy. To zrozumienie pomaga nam tworzyć bezpieczniejsze i bardziej niezawodne technologie. I, co ważne, przypomina nam, dlaczego ludzkie doświadczenie wciąż ma znaczenie”.

Przyszłość benchmarków AI

Większość pytań testowych pozostaje ukryta, aby modele AI nie mogły ich „zapamiętać” podczas procesu uczenia. HLE ma służyć jako długoterminowy miernik rozwoju, pokazując różnicę między prostym dopasowaniem do wzorców a dogłębnym zrozumieniem na poziomie eksperckim.

Projekt ten udowodnił również siłę interdyscyplinarnej współpracy. W tworzeniu HLE brali udział nie tylko informatycy, ale także historycy, fizycy, językoznawcy i badacze medyczni. To właśnie ta różnorodność ludzkiej wiedzy obnaża luki, które wciąż dzielą maszyny od nas samych.

źródło: „Wzór pytań akademickich na poziomie eksperckim do oceny możliwości sztucznej inteligencji” (A benchmark of expert-level academic questions to assess AI capabilities), Nature, 28 stycznia 2026 r. by Center for AI Safety, Scale AI and HLE Contributors Consortium.
DOI: 10.1038/s41586-025-09962-4

➔ Obserwuj nas w Google News, aby być na bieżąco!

źródło: SciTechScience