W erze generatywnej sztucznej inteligencji, obserwujemy dynamiczny rozwój w tej dziedzinie. Coraz więcej firm angażuje się w tworzenie zaawansowanych modeli, które stają się coraz bardziej zróżnicowane. W obliczu tego boomu, wiele firm reklamuje swoje modele jako „open source”, ale co to tak naprawdę oznacza?
Pojęcie open source wywodzi się ze społeczności deweloperów oprogramowania. Tradycyjne oprogramowanie open-source udostępnia kod źródłowy do wglądu, modyfikacji i dystrybucji przez każdego. W istocie jest to narzędzie do dzielenia się wiedzą, które napędza innowacje technologiczne. Przykładem tego są system operacyjny Linux i przeglądarka Firefox.
Jednak przeniesienie etosu open-source na współczesne, ogromne modele sztucznej inteligencji nie jest proste. Systemy te często są trenowane na ogromnych zbiorach danych zawierających terabajty lub petabajty informacji, wykorzystując skomplikowane architektury sieci neuronowych z miliardami parametrów. Koszty potrzebnych zasobów obliczeniowych mogą sięgać milionów dolarów, a własność intelektualna jest często ściśle strzeżona.
Przykładem jest OpenAI, które początkowo działało jako laboratorium badawcze dedykowane idei open source. Jednak, gdy firma zaczęła poszukiwać inwestycji, etos open-source szybko uległ erozji. Dlaczego? Produkty open-source nie są nastawione na zysk, a sztuczna inteligencja jest kosztowna i cenna.
W ostatnich badaniach, Mark Dingemanse i Andreas Liesenfeld z Uniwersytetu Radboud w Holandii przeanalizowali szereg znanych modeli AI, aby zbadać, jak otwarte naprawdę są. Oceniali różne kryteria, takie jak dostępność kodu źródłowego, danych treningowych, wag modelu, publikacji naukowych i interfejsów API.
Na przykład, model LLaMA firmy Meta oraz Gemma firmy Google są jedynie „open weight”, co oznacza, że udostępniono wytrenowany model do użytku publicznego, ale brak pełnej przejrzystości co do kodu, procesu szkolenia, danych i metod fine-tuning. Z kolei model BLOOM, stworzony przez ponad 1000 badaczy na całym świecie, jest przykładem prawdziwie otwartego AI: każdy element modelu jest dostępny do wglądu i dalszych badań.
Brak przejrzystości w modelach sztucznej inteligencji, szczególnie tych rozwiniętych przez duże korporacje technologiczne, budzi poważne obawy dotyczące odpowiedzialności i nadzoru. Bez pełnego dostępu do kodu modelu, danych szkoleniowych i innych kluczowych komponentów, niezwykle trudno zrozumieć, jak te modele działają i podejmują decyzje. Utrudnia to identyfikację i eliminację potencjalnych uprzedzeń, błędów czy naruszeń praw autorskich.
Przykładem problemów wynikających z braku przejrzystości jest naruszenie praw autorskich w danych treningowych AI. Wiele własnościowych modeli AI, takich jak GPT-3.5/4/40/Claude 3/Gemini, prawdopodobnie jest trenowanych na materiałach objętych prawami autorskimi. Jednakże, ponieważ dane treningowe są tajne, identyfikacja konkretnych danych w tym materiale jest prawie niemożliwa.
Niedawna sprawa sądowa New York Times przeciwko OpenAI ukazuje realne konsekwencje tego wyzwania. OpenAI oskarżyło NYT o wykorzystanie ataków inżynierii promptów do ujawnienia danych treningowych i zmuszenia ChatGPT do odtwarzania artykułów NYT w całości, co dowiodło, że dane treningowe OpenAI zawierają materiały objęte prawami autorskimi. „The Times zapłacił komuś za hakowanie produktów OpenAI” – stwierdziło OpenAI.
Reakcją na to, Ian Crosby, główny doradca prawny NYT, powiedział: „To, co OpenAI dziwnie określa jako ‘hakowanie’, to po prostu używanie produktów OpenAI w celu znalezienia dowodów na to, że ukradli i odtworzyli prace objęte prawami autorskimi Times. I to właśnie znaleźliśmy.”
To tylko jeden przykład z ogromnej liczby spraw sądowych, które obecnie utknęły z powodu nieprzejrzystości modeli AI. Bez solidnych środków transparentności i odpowiedzialności, ryzykujemy przyszłość, w której nieprzejrzyste systemy AI podejmują decyzje mające głęboki wpływ na nasze życie, gospodarkę i społeczeństwo, a mimo to pozostają poza zasięgiem kontroli.
Istnieją apele o udostępnienie wewnętrznych mechanizmów modeli przez firmy takie jak Google i OpenAI w celu oceny bezpieczeństwa. Jednak prawda jest taka, że nawet firmy AI nie do końca rozumieją, jak działają ich modele. To nazywa się problemem „czarnej skrzynki”, który pojawia się, gdy próbujemy interpretować i wyjaśniać specyficzne decyzje modelu w sposób zrozumiały dla człowieka.
Przykładowo, deweloper może wiedzieć, że model uczenia głębokiego jest dokładny i działa dobrze, ale może mieć trudności ze wskazaniem, które cechy modelu są wykorzystywane do podejmowania decyzji. Antropik, który opracował modele Claude, przeprowadził niedawno eksperyment próbujący zidentyfikować, jak działa Claude 3 Sonet, wyjaśniając: „Traktujemy głównie modele AI jako czarną skrzynkę: coś wchodzi, wychodzi odpowiedź, i nie jest jasne, dlaczego model udzielił tej konkretnej odpowiedzi zamiast innej. Trudno jest zaufać, że te modele są bezpieczne: jeśli nie wiemy, jak działają, skąd mamy wiedzieć, że nie udzielą szkodliwych, stronniczych, nieprawdziwych lub w inny sposób niebezpiecznych odpowiedzi? Jak możemy zaufać, że będą bezpieczne i niezawodne?”
Eksperyment ten ilustruje, jak deweloperzy AI nie do końca rozumieją czarną skrzynkę, jaką są ich modele AI, i że obiektywne wyjaśnienie wyników jest wyjątkowo trudnym zadaniem. W rzeczywistości Antropik oszacował, że pochłonęłoby to więcej mocy obliczeniowej, aby „otworzyć czarną skrzynkę”, niż potrzeba do treningu modelu!
Deweloperzy starają się aktywnie zwalczać problem czarnej skrzynki poprzez badania nad „wytłumaczalną AI” (XAI), której celem jest opracowanie technik i narzędzi, aby modele AI były bardziej przejrzyste i zrozumiałe. Metody XAI dążą do zapewnienia wglądu w proces podejmowania decyzji modelu, podkreślenia najważniejszych cech i wygenerowania wyjaśnień zrozumiałych dla człowieka. XAI już została zastosowana do modeli wdrożonych w wysokostakowych aplikacjach, takich jak rozwój leków, gdzie zrozumienie, jak model działa, może być kluczowe dla bezpieczeństwa.
Inicjatywy open source są kluczowe dla XAI i innych badań, które dążą do przeniknięcia czarnej skrzynki i zapewnienia przejrzystości modeli AI. Bez dostępu do kodu modelu, danych szkoleniowych i innych kluczowych komponentów, naukowcy nie mogą opracowywać i testować technik wyjaśniających, jak modele AI naprawdę działają i jakie konkretne dane zostały użyte do ich treningu.
Regulacje mogą dodatkowo skomplikować sytuację open source. Niedawno przyjęty Akt AI Unii Europejskiej wprowadza nowe regulacje dotyczące systemów AI, z przepisami specyficznie odnoszącymi się do modeli open source. Zgodnie z Aktem, modele open source ogólnego przeznaczenia do pewnej wielkości będą zwolnione z szerokich wymagań dotyczących przejrzystości.
Jednak, jak wskazują Dingemanse i Liesenfeld w swoich badaniach, dokładna definicja „open source AI” w ramach Aktu AI jest nadal niejasna i może stać się punktem spornym. Akt obecnie definiuje modele open source jako te wydane na licencji „wolnej i otwartej”, która pozwala użytkownikom modyfikować model. Nadal jednak nie określa wymagań dotyczących dostępu do danych treningowych lub innych kluczowych komponentów.
Ta niejasność pozostawia pole do interpretacji i potencjalnego lobbingu przez korporacyjne interesy. Badacze ostrzegają, że doprecyzowanie definicji open source w Akcie AI „będzie prawdopodobnie stanowić punkt nacisku, który będzie celem lobbingu korporacji i dużych firm.”
Istnieje ryzyko, że bez jasnych, solidnych kryteriów określających, co stanowi prawdziwie open-source AI, regulacje mogą nieświadomie stworzyć luki prawne lub zachęty dla firm do angażowania się w „open-washing” – twierdzenie o otwartości dla korzyści prawnych i wizerunkowych, podczas gdy ważne aspekty ich modeli pozostają własnością prywatną.
Co więcej, globalny charakter rozwoju AI oznacza, że różne regulacje w różnych jurysdykcjach mogą dodatkowo skomplikować krajobraz. Jeżeli główni producenci AI, tacy jak Stany Zjednoczone i Chiny, przyjmą odmienne podejścia do wymagań dotyczących otwartości i przejrzystości, może to prowadzić do fragmentacji ekosystemu, w którym stopień otwartości będzie znacznie różnić się w zależności od miejsca pochodzenia modelu.
Autorzy badania podkreślają potrzebę, aby regulatorzy ściśle współpracowali z społecznością naukową i innymi interesariuszami, aby zapewnić, że jakiekolwiek postanowienia dotyczące open source w przepisach dotyczących AI opierają się na głębokim zrozumieniu technologii i zasad otwartości. Jak podsumowują Dingemanse i Liesenfeld w rozmowie z Nature, „Można powiedzieć, że termin open source nabierze bezprecedensowego znaczenia prawnego w krajach objętych Aktem AI UE.” Jak to się rozegra w praktyce, będzie miało ogromne implikacje dla przyszłego kierunku badań i wdrażania sztucznej inteligencji.