Badania przeprowadzone przez Uniwersytet Oksfordzki przyniosły nowatorską metodę testowania, kiedy modele językowe są “niepewne” co do swojego outputu lub kiedy halucynują. Halucynacje AI to zjawisko, w którym duże modele językowe generują płynne i wiarygodne odpowiedzi, które nie są oparte na faktach ani spójne w różnych rozmowach. W skrócie, model językowy “halucynuje”, gdy produkuje treści, które na pierwszy rzut oka wydają się przekonujące, ale w rzeczywistości są zmyślone lub niespójne z poprzednimi oświadczeniami.
Problem halucynacji jest trudny do wyeliminowania z modeli AI. Twórcy AI, tacy jak OpenAI, Google i Anthropic, przyznają, że halucynacje prawdopodobnie będą nadal występować jako efekt uboczny interakcji z AI. Jak wyjaśnia dr Sebastian Farquhar, jeden z autorów badania, “LLMy są bardzo zdolne do mówienia tego samego na wiele różnych sposobów, co może utrudniać odróżnienie, kiedy są pewne odpowiedzi, a kiedy dosłownie coś zmyślają.”
Pytanie, na które starało się odpowiedzieć badanie Uniwersytetu Oksfordzkiego, brzmiało: co tak naprawdę dzieje się “pod maską” modelu językowego, gdy halucynuje? I jak możemy wykryć, kiedy to prawdopodobnie nastąpi? Badacze postanowili rozwiązać problem halucynacji, opracowując nową metodę do wykrywania, kiedy model językowy prawdopodobnie wygeneruje zmyślone lub niespójne informacje.
W opublikowanej pracy w Nature badacze wprowadzili pojęcie “entropii semantycznej”, które mierzy niepewność outputu modelu językowego na poziomie znaczenia, a nie tylko specyficznych słów lub fraz. Obliczając entropię semantyczną odpowiedzi modelu, badacze mogą oszacować jego pewność co do wygenerowanych treści i zidentyfikować przypadki, kiedy prawdopodobnie będzie halucynować.
Identyfikowanie momentów, kiedy model prawdopodobnie halucynuje, umożliwia prewencyjne wykrywanie tych halucynacji. W zastosowaniach o wysokim ryzyku, takich jak finanse czy prawo, takie wykrycie umożliwi użytkownikom zatrzymanie modelu lub sprawdzenie jego odpowiedzi pod kątem dokładności przed ich użyciem w rzeczywistym świecie.
Entropia semantyczna, jak zdefiniowano w badaniu, mierzy niepewność lub niespójność w znaczeniu odpowiedzi modelu językowego. Pomaga wykrywać, kiedy model może halucynować lub generować nierzetelne informacje. Badacze aktywnie pobudzali model językowy do generowania kilku możliwych odpowiedzi na to samo pytanie. Osiągali to, podając pytanie modelowi wielokrotnie, za każdym razem z innym losowym seedem lub lekką wariacją w inputie.
Entropia semantyczna bada odpowiedzi i grupuje te, które mają to samo podstawowe znaczenie, nawet jeśli używają różnych słów lub sformułowań. Jeśli model jest pewny odpowiedzi, jego odpowiedzi powinny mieć podobne znaczenia, co skutkuje niskim wynikiem entropii semantycznej. Sugeruje to, że model wyraźnie i konsekwentnie rozumie informacje. Jednak jeśli model jest niepewny lub zdezorientowany, jego odpowiedzi będą miały większą różnorodność znaczeń, niektóre z których mogą być niespójne lub niezwiązane z pytaniem. Skutkuje to wysokim wynikiem entropii semantycznej, wskazującym na potencjalne halucynacje lub generowanie nierzetelnych informacji.
Aby ocenić skuteczność entropii semantycznej, badacze zastosowali ją do różnorodnych zadań z pytaniami i odpowiedziami. Obejmuje to benchmarki takie jak pytania z quizów, czytanie ze zrozumieniem, problemy słowne i biografie. W każdym przypadku entropia semantyczna przewyższała istniejące metody wykrywania, kiedy model prawdopodobnie wygeneruje niepoprawną lub niespójną odpowiedź.
Entropia semantyczna grupuje odpowiedzi o wspólnych znaczeniach przed obliczeniem entropii, co czyni ją odpowiednią do zadań językowych, gdzie różne odpowiedzi mogą oznaczać to samo. Niska entropia semantyczna wskazuje na pewność modelu co do znaczenia. Dla dłuższych tekstów, tekst jest dzielony na faktoidy, generowane są pytania, które mogą przynieść każdy faktoid, a model generuje wiele odpowiedzi. Entropia semantyczna, w tym oryginalny faktoid, jest obliczana dla każdej odpowiedzi na pytanie. Wysoka średnia entropia semantyczna sugeruje konfabulację (w zasadzie halucynacje przedstawiane jako fakty), podczas gdy niska entropia, mimo różnorodnego słownictwa, wskazuje na prawdopodobnie prawdziwy faktoid.
W prostszych słowach, entropia semantyczna mierzy, jak “zdezorientowany” jest output modelu językowego. Jeśli znaczenia są ściśle powiązane i spójne, model prawdopodobnie dostarcza rzetelne informacje. Jeśli jednak znaczenia są rozproszone i niespójne, to jest to czerwony alert, że model może halucynować lub generować nierzetelne informacje.
Obliczając entropię semantyczną odpowiedzi modelu językowego, badacze mogą wykrywać, kiedy model prawdopodobnie wygeneruje nierzetelne lub niespójne informacje, nawet jeśli wygenerowany tekst wydaje się płynny i wiarygodny na pierwszy rzut oka.
Implications
Praca ta może pomóc wyjaśnić halucynacje i uczynić modele językowe bardziej niezawodnymi i godnymi zaufania. Zapewniając sposób wykrywania, kiedy model językowy jest niepewny lub podatny na halucynacje, entropia semantyczna toruje drogę do wdrażania tych narzędzi AI w obszarach, gdzie dokładność faktograficzna jest kluczowa, takich jak opieka zdrowotna, prawo i finanse. Błędne wyniki mogą mieć potencjalnie katastrofalne skutki w tych dziedzinach, jak pokazują niektóre nieudane systemy predykcji policyjnej i zdrowotnej.
Jednak ważne jest, aby pamiętać, że halucynacja to tylko jeden z rodzajów błędów, jakie mogą popełniać modele językowe. Jak zauważa dr Farquhar, “Jeśli model językowy popełnia systematyczne błędy, ta nowa metoda ich nie wykryje. Najbardziej niebezpieczne są błędy AI, gdy system robi coś złego, ale jest pewny i systematyczny. Wciąż jest dużo pracy do zrobienia.”
Niemniej jednak metoda entropii semantycznej zespołu z Oksfordu stanowi znaczący krok naprzód w naszej zdolności do rozumienia i łagodzenia ograniczeń modeli językowych AI. Zapewnienie obiektywnego środka ich wykrywania przybliża nas do przyszłości, w której będziemy mogli wykorzystać potencjał AI, jednocześnie zapewniając, że pozostanie ona niezawodnym i godnym zaufania narzędziem w służbie ludzkości.