Przełom: Naukowcy z NYU stworzyli system syntezowania mowy!

Odkrycie naukowców z Uniwersytetu Nowojorskiego to ważny krok na drodze do przywrócenia głosu osobom, które utraciły zdolność mówienia. Grupa badaczy opracowała nowatorskie podejście do dekodowania mowy neuronowej, łącząc wiedzę z zakresu neurologii z najnowszymi osiągnięciami w dziedzinie uczenia maszynowego.

Badanie opublikowane w “Nature Machine Intelligence” prezentuje zaawansowany system głębokiego uczenia, który z zadziwiającą dokładnością tłumaczy sygnały mózgowe na inteligibilną mowę. Dzięki temu ludzie dotknięci skutkami udarów, schorzeń degeneracyjnych czy urazów fizycznych mogą komunikować się, dekodując zamierzone wypowiedzi z sygnałów neuronowych. Wykorzystując model głębokiego uczenia, badacze zmapowali sygnały elektrokortykograficzne (ECoG) na zrozumiałe cechy mowy, takie jak ton, głośność czy spektralną zawartość dźwięków mowy. Dane ECoG uchwyciły niezbędne elementy produkcji mowy, co umożliwiło stworzenie skompresowanego odwzorowania zamierzonej mowy.

Prace nad projektem obejmowały trening sztucznej inteligencji, by mogła ona zasilać urządzenie syntezujące mowę. Oznacza to, że osoby z utratą mowy będą mogły komunikować się, używając wyłącznie impulsów elektrycznych pochodzących z ich mózgu.

Na potrzeby treningu modelu dekodującego mowę naukowcy zgromadzili dane mózgowe od 48 uczestników poddawanych neurochirurgicznemu leczeniu epilepsji. W trakcie eksperymentu proszono ich o czytanie na głos setek zdań, podczas gdy aktywność ich mózgu była rejestrowana za pomocą siatek ECoG umieszczonych bezpośrednio na powierzchni mózgu. Te siatki przechwytywały sygnały elektryczne z regionów mózgu zaangażowanych w produkcję mowy.

Naukowcy opracowali skomplikowany model AI, który mapował zarejestrowane sygnały mózgowe na określone cechy mowy. Następnie, za pomocą specjalnego syntezatora mowy, przekształcali wyodrębnione cechy w dźwiękową mowę. Syntezator generował spektrogram – wizualną reprezentację dźwięków mowy, którą następnie przekształcano w falę dźwiękową. Efektem końcowym była naturalnie brzmiąca syntetyzowana mowa.

Ocena wyników polegała na porównaniu mowy wygenerowanej przez model do oryginalnej mowy wypowiedzianej przez uczestników. Badacze wykorzystali obiektywne metryki, aby zmierzyć podobieństwo między nimi, stwierdzając, że wygenerowana mowa ściśle odpowiadała treści i rytmowi oryginału. Ponadto w celu zapewnienia, że model poradzi sobie z nowymi, nieznajomymi dotąd słowami, naukowcy przeprowadzili testy na słowach, które zostały pominięte podczas fazy treningu modelu.

Równie imponujące jest to, że system z powodzeniem dekodował mowę z obu półkul mózgowych, co ma znaczenie dla pacjentów z uszkodzeniami mózgu po jednej stronie. System NYU osiągnął wysokiej jakości dekodowanie mowy bez potrzeby stosowania ultrawysokogęstościowych matryc elektrod, które są niepraktyczne do długotrwałego użytkowania. Jest to kluczowa zaleta, oferująca bardziej lekką i przenośną alternatywę.

Badanie to buduje na wcześniejszych osiągnięciach w dekodowaniu mowy neuronowej i interfejsach mózg-komputer. W przyszłości zespół z NYU zamierza dopracować swoje modele do dekodowania mowy w czasie rzeczywistym, zbliżając nas do ostatecznego celu, którym jest umożliwienie naturalnych, płynnych konwersacji osobom z zaburzeniami mowy. Planują również dostosować system do implantowalnych urządzeń bezprzewodowych, które mogą być używane w codziennym życiu.

Wiele wyzwań pozostaje do pokonania przed powszechnym wdrożeniem tej technologii, w tym trudności związane z gromadzeniem wysokiej jakości danych mózgowych i indywidualne różnice w aktywności mózgowej. Niemniej jednak, badanie przeprowadzone przez Uniwersytet Nowojorski stanowi znaczący postęp w kierunku realizacji tej rewolucyjnej idei.

Podobne artykuły

Meta rewolucjonizuje sztuczną mowę!

W dobie dynamicznie rozwijającej się technologii sztucznej inteligencji, coraz trudniej jest odróżnić materiały stworzone przez człowieka od tych generowanych automatycznie. Jednym z kluczowych wyzwań, przed

Czytaj wiecej >

© 2025 AIEDU.PL.