W dziedzinie sztucznej inteligencji, która nigdy nie przestaje nas zadziwiać, xAI ogłosiło niedawno pojawienie się Grok-1.5, nowego modelu AI o multimodalnym charakterze. Grok-1.5 wyznacza nowe standardy w analizie złożonych scenariuszy, które przybliżają nas do rozumienia prawdziwego świata. Co wyróżnia Grok-1.5 to nie tylko umiejętność przetwarzania tekstu, ale także obrazów – od dokumentów i diagramów, przez wykresy, zrzuty ekranu, aż po fotografie.
Kompetencje Grok-1.5 w dziedzinie tekstu, kodowania i matematyki są imponujące. Model ten osiągnął 50.6% skuteczności na benchmarku MATH, 90% na GSM8K, oraz 74.1% na HumanEval, wprowadzając go na arenę technologicznych ciężkich wag. Choć wyniki te są nieco niższe niż uzyskane przez inne modele, takie jak Gemini Pro 1.5, GPT-4 czy Claude 3 Opus, Grok-1.5 wyznacza nowe standardy w zakresie tekstu, matematyki i kodowania.
Co więcej, Grok-1.5 potrafi zrozumieć kontekst znacznie dłuższy niż jego poprzednicy – aż do 128K tokenów, co stanowi szesnastokrotny wzrost. Choć nadal pozostaje to za osiągnięciami Claude 3 Opus i Gemini 1.5 Pro, jest to imponujący krok naprzód. Podczas oceny Needle In A Haystack (NIAH) Grok-1.5 wykazał zdolność do lokalizowania tekstu wbudowanego w konteksty o długości do 128K tokenów.
Przełomowy jednak okazał się zestaw umiejętności wizyjnych prezentowany przez Grok-1.5. Demonstracje pokazały, jak model ten przekształca schematy blokowe w kod Python, generuje opowieści na dobranoc inspirowane obrazkami dzieci, tworzy zestawy danych CSV ze zrzutów ekranów, a nawet “rozwija” memy. W dziedzinie benchmarków wizyjnych Grok-1.5 również przoduje, zajął pierwsze miejsce w uznanych benchmarkach takich jak Mathvista i TextVQA oraz osiągnął najwyższe wyniki w nowo ustanowionym przez xAI benchmarku RealWorldQA.
W tle działania Grok-1.5 kryje się niestandardowa konstrukcja ramy szkoleniowej, która umożliwia zespołowi xAI prototypowanie pomysłów i skalowanie nowych architektur z minimalnym nakładem pracy. xAI, założone zaledwie rok temu, zgromadziło niektórych z najlepszych na świecie badaczy AI, stawiając sobie ambitny cel “zrozumienia wszechświata”.
Grok-1.5 to nie tylko rozwój techniki – to także obietnica. Przykładem może być pierwsza wersja Grok, która zyskała popularność nie tyle dzięki swojej wydajności, ile dzięki unikalnym cechom, takim jak powiązanie z bazą danych postów X i zdolność generowania odpowiedzi dotykających nawet kontrowersyjnych tematów.
Projekt xAI Elona Muska rzuca wyzwanie głównie hermetycznemu ekosystemowi generatywnych AI, czyniąc swoje modele powszechnie dostępnymi na zasadach prawdziwego open-source. Wraz z Meta, która ma podobne intencje do przeciwstawienia się konkurencji, otwarta filozofia xAI może stanowić wyzwanie dla wysiłków monetarystycznych firm takich jak OpenAI, Microsoft, Anthropic i Google.
Ostatnio xAI ujawniło RealWorldQA, nowy benchmark składający się z ponad 700 obrazów, z których każdy towarzyszy pytanie i weryfikowalna odpowiedź. Zbiór ten skupia się głównie na anonimowych obrazach uzyskanych z pojazdów i innych sytuacji życia codziennego, oceniając model Grok 1.5 oraz inne multimodalne modele AI pod kątem zdolności do zrozumienia przestrzeni. RealWorldQA ma na celu testowanie zdolności modeli do rozumienia scen naturalnych.
Grok-1.5 wyprzedza konkurencję w RealWorldQA, a jego przyszłość wydaje się obiecująca. Choć jeszcze daleko mu do rozumienia wszechświata, Grok-1.5 już teraz zajmuje miejsce wśród czołowych modeli AI, pokazując, że generatywna sztuczna inteligencja w obecnym kształcie dochodzi do szczytów swoich możliwości – być może jednak nie na długo.