OpenAI prezentuje GPT-4o. Czego się spodziewać po nowym modelu?
OpenAI zaprezentowało wczoraj przedsmak nowego wariantu dużego modelu językowego GPT o nazwie GPT-4o. Według szefa OpenAI, Sama Altmana, jest to LLM, którego możliwości można porównać do Samanthy ze świetnego filmu “Her”. Mowa o nowej generacji inteligentnego asystenta, który przetwarza tekst, dźwięk i obraz wideo.
OpenAI prezentuje GPT-4o
Cechą wyróżniającą GPT-4o ("o" od omni) na tle innych wariantów GPT zaprezentowanych wcześniej przez OpenAI jest to, że pracuje on w wielu trybach jednocześnie. Wcześniej, aby przetwarzać tekst, mowę lub obraz, konieczne było zaangażowanie do tego trzech różnych wariantów dużego modelu językowego. GPT-4o to zmienia - dane wejściowe przetwarzane są w ramach jednego modelu, z którego korzysta się za pomocą jednego interfejsu. Główną metodą posługiwania się modelem ma być głos - narzędzie stawia na interakcję przez konwersację, jednak już w mowie, a nie jak miało to miejsce w ChatGPT - w piśmie.
Już wcześniej aktywność Altmana w serwisie X wskazywała na to, że nowość będzie miała wiele wspólnego z uniwersalnym asystentem Samantha znanym z filmu “Her”. Przypomnijmy, że tam główny bohater korzystał z niewielkiej bezprzewodowej słuchawki, by rozmawiać ze sztuczną inteligencją na dowolny temat - od pozyskiwania informacji, przez automatyzację zadań na relacjach towarzyskich, a w końcu romantycznych kończąc.
Polski konkurent dla ChatGPT do kosza? Minister cyfryzacji ma obawyUniwersalny asystent, który ma głos
Czy tak rozbudowane możliwości będzie miało także GPT-4o? Zdaniem Altmana nowy model stał się dla niego najbardziej naturalnym sposobem wchodzenia w interakcje z maszyną, jakiej kiedykolwiek doświadczył. Spore wrażenie robią także opublikowane materiały promocyjne. W ramach jednej aplikacji mobilnej można rozmawiać z modelem, może on analizować na bieżąco obraz z kamery smartfonu, rozpoznawać emocje odbiorcy (co swoją drogą jest zakazane na terenie EU na mocy aktu o sztucznej inteligencji) i żywo reagować z użyciem damskiego lub męskiego głosu.
Zastosowania można mnożyć: od codziennej asysty, czyli spełnienia obietnicy danej i zapomnianej przez Siri czy Asystenta Google, przez niezwykle sprawne tłumaczenia maszynowe, w których GPT-4o działa niemal jak tłumacz symultaniczny, do zaawansowanego przetwarzania obrazu. Oczywiście to czas pokaże, jak w model sprawuje się w praktyce. Zwłaszcza że już dopatrzono się pierwszych sztuczek - 4o może tak naprawdę używać dwóch modeli, pierwszego o bardzo niskiej latencji i drugiego, właściwego, tak aby jak najszybciej reagować na dane wejściowe, co jest bardzo efektowne, a dopiero późnej przetwarzać prompty.
Możliwości i dostępność GPT-4o
Efektowność - to chyba najważniejszy wniosek płynący z wczorajszych prezentacji OpenAI. Oczywiście nie brakuje już prognoz dotyczących wpływu modelu na zachowania społeczne czy też, że GPT-4o to w zasadzie koniec barier językowych. Pół żartem, pół serio mówi się o tym, że relacja z 4o będzie zastępować relacje międzyludzkie, co znów jest realizacją scenariusza “Her”. Szum wokół premiery OpenAI jest ogromny, ale być może lepiej podsumowują ją słowa samego Altmana:
ChatGPT dało nam przykład tego, co jest możliwe z interfejsami językowymi; Ta nowa rzecz sprawia wrażenie czegoś zupełnie nowego. Jest szybka, sprytna, naturalna i pomocna.
Tylko tyle i aż tyle. ChatGPT nie odmienił świata w sposób, jaki przewidywano. Po półtora roku od premiery i kilku iteracjach nadal jest bardzo głupi i często nie potrafi porównać wielkości dwóch liczb naturalnych, a szum wokół pierwszych odsłon publicznych dużych modeli językowych częściowo ucichł. Podobnie do nadmuchanych oczekiwań wobec GPT-4o warto podchodzić z rezerwą. Zwłaszcza że zgodnie z nowym zwyczajem Doliny Krzemowej, premiera niewiele ma wspólnego z udostępnieniem usługi na rynku.
Na razie możliwości 4o będą trafiać do ChatGPT - stopniowo i w ograniczonym zakresie, bowiem tylko w ramach interfejsu tekstowego oraz z wykorzystaniem statycznego obrazu. Po stronie użytkownika zmieni się więc niewiele, można spodziewać się większej skuteczności i szybkości. Tryb głosowy, a więc chyba największy wyróżnik 4o, udostępniony zostanie w ciągu nadchodzących tygodni na razie wyłącznie subskrybentom ChatGPT Plus.