Jak dokładne są chatboty AI?

Podczas gdy twórcy sztucznej inteligencji wciąż przesuwają granice, użytkownicy muszą być świadomi obecnych ograniczeń tej technologii.

Trzy lata temu, 30 listopada 2022 roku, oficjalna premiera ChatGPT stanowiła punkt zwrotny w sztucznej inteligencji, wprowadzając chatboty AI (lub duże modele językowe) do głównego nurtu. Od tego czasu postęp był niezaprzeczalny: zdolność LLM do przetwarzania złożonych zapytań, podsumowywania ogromnych ilości informacji, a nawet wspomagania kodowania znacznie się poprawiła.

Sztuczna inteligencja się poprawia, ale niedokładność pozostaje wysoka!

Jednak halucynacje, błędne interpretacje kontekstu i nieścisłości nadal nękają nawet najbardziej zaawansowane z obecnie dostępnych modeli. Najnowsze badanie przeprowadzone przez Europejską Unię Nadawców (EBU, ang. European Broadcasting Union) i BBC ujawnia, że ​​chociaż wskaźnik niedokładnych odpowiedzi spadł od końca ubiegłego roku, błędy nadal są powszechne.

Dane zebrane między majem a czerwcem 2025 roku i przeanalizowane przez grupę dziennikarzy ujawniły, że prawie połowa odpowiedzi (48%) z popularnych chatbotów – darmowych wersji ChatGPT, Gemini, Copilot i Perplexity – zawierała błędy w dokładności.

Aż 17% stanowiły istotne błędy, głównie dotyczące źródła i brakującego kontekstu. W grudniu 2024 roku odsetek niepoprawnych odpowiedzi (obserwowany przy użyciu mniejszej próby odpowiedzi) był znacznie wyższy: 72% dla wszystkich czterech programów LLM. W tym przypadku 31% stanowiły poważne problemy.

Pomimo stopniowych ulepszeń, te niedociągnięcia rodzą krytyczne pytania dotyczące niezawodności, zwłaszcza w aplikacjach o wysokim ryzyku, takich jak opieka zdrowotna, doradztwo prawne czy edukacja.

➔ Obserwuj nas w Google News, aby być na bieżąco!

źródło: Statista | European Broadcasting Union | BBC