AI nie radzą sobie z prostymi zagadkami logicznymi!

W dzisiejszych czasach modele językowe, takie jak GPT-4, potrafią wykonywać niesamowicie skomplikowane zadania. Jednakże nawet najbardziej zaawansowane modele mają trudności z rozwiązaniem niektórych podstawowych problemów logicznych, z którymi radzą sobie dzieci. W wywiadzie dla CBS, Geoffrey Hinton, znany jako „ojciec chrzestny sztucznej inteligencji”, wyraził opinię, że systemy AI mogą być bardziej inteligentne, niż nam się wydaje, i istnieje ryzyko, że maszyny mogą przejąć kontrolę. Hinton stwierdził: „Myślę, że wchodzimy w okres, gdy po raz pierwszy w historii możemy mieć do czynienia z czymś bardziej inteligentnym od nas.”

Jednakże Yann LeCun, główny naukowiec AI w Meta, twierdzi, że jesteśmy daleko od momentu, gdy AI osiągnie nawet poziom inteligencji porównywalny z psem. Która z tych opinii jest bliższa prawdy? W tym tygodniu użytkownicy na platformie X zamieszczali przykłady niesamowitych zdolności kodowania nowego modelu Claude od firmy Anthropic. Inni przeprowadzali eksperymenty, aby pokazać, że modele AI wciąż mają problemy z podstawowym rozumowaniem.

Klasyczna zagadka związana z przeprawą przez rzekę ma wiele wariantów, ale wersja z Wikipedii opisuje ją następująco:
Rolnik z wilkiem, kozłem i kapustą musi przeprawić się przez rzekę łodzią. Łódź może pomieścić tylko rolnika i jeden przedmiot. Jeśli zostaną pozostawieni razem, wilk zje kozła, a kozioł zje kapustę. Jak mogą przeprawić się przez rzekę, aby nic nie zostało zjedzone?

Znalezienie rozwiązania wymaga podstawowego planowania i rozumowania różnych scenariuszy, ale nie jest to szczególnie trudny problem do rozwiązania. Przynajmniej dla ludzi. Czy GPT-4 potrafi to rozwiązać? Jeśli wkleisz tę zagadkę do ChatGPT, otrzymasz poprawną odpowiedź, ale strona Wikipedii z pewnością była częścią jego danych treningowych.

Co jeśli uprościmy zagadkę i zmienimy ją nieco, aby model językowy nie mógł polegać na swoich danych treningowych? Brytyjski profesor matematyki Sir William Timothy Gowers pokazał, jak łatwo można ujawnić brak zdolności logicznego myślenia przez modele językowe.

Nieudana próba rozwiązania uproszczonej zagadki przez ChatGPT wykazuje, że model stara się przypomnieć sobie odpowiedź zamiast logicznie rozwiązać problem. Czy Claude Sonnet 3.5 jest lepszy? Eksperymenty przeprowadzone przez Colina Frasera, naukowca danych w Meta, potwierdziły, że nawet wiodący obecnie model AI nie potrafi rozwiązać tej prostej zagadki.

Wydaje się, że Meta nie była do końca uczciwa, nie pokazując wyników uzyskanych za pomocą Llama 3. Zadałem to samo pytanie Meta AI i również nie udało się uzyskać poprawnej odpowiedzi. Yann LeCun wyjaśnił, że problemem jest brak zdrowego rozsądku, zrozumienia świata i zdolności do planowania i rozumowania przez modele językowe.

Czy to prawda, czy może chodzi o coś innego? Te interakcje mogą wskazywać na to, jak bardzo wynik modelu językowego zależy od danych treningowych. Odpowiedź Meta AI, nazywająca tę zagadkę „klasyczną”, sugeruje, że może to być przyczyną problemu. Warianty zagadki z przeprawą przez rzekę często odnoszą się do liczby „kursów” wymaganych do jej rozwiązania. Kiedy zadanie jest przedstawione bez użycia określenia „kursy”, model językowy rozwiązuje je poprawnie.

Te eksperymenty były interesujące, ale nie dają jednoznacznej odpowiedzi na pytanie, czy modele AI są naprawdę inteligentne, czy też są jedynie maszynami przewidującymi kolejny token. Wyniki jednak podkreślają, jak podatne są modele językowe na dane treningowe. Kiedy GPT-4 świetnie radzi sobie na egzaminach LSAT, czy „myśli”, aby znaleźć odpowiedzi, czy je zapamiętuje? Dopóki inżynierowie nie zrozumieją, co dzieje się we wnętrzu stworzonych przez nich czarnych skrzynek AI, argumenty na platformie X będą trwały nadal.

Podobne artykuły

Meta rewolucjonizuje sztuczną mowę!

W dobie dynamicznie rozwijającej się technologii sztucznej inteligencji, coraz trudniej jest odróżnić materiały stworzone przez człowieka od tych generowanych automatycznie. Jednym z kluczowych wyzwań, przed

Czytaj wiecej >

© 2025 AIEDU.PL.