BiznesINFO.pl Technologie Do ChatGPT trafią największe zmiany od czasu rozpoczęcia testów. Model zyska wzrok, słuch i mowę
Sam Altman, szef fot. JASON REDMOND/AFP/East News

Do ChatGPT trafią największe zmiany od czasu rozpoczęcia testów. Model zyska wzrok, słuch i mowę

26 września 2023
Autor tekstu: Maciej Olanicki

Można odnieść wrażenie, że po ogromnym początkowym sukcesie i trudnej do oszacowania liczbie publikacji udostępnionych na ten temat, czar ChatGPT wśród zwykłych internautów nieśpiesznie blaknie. To się jednak może wkrótce zmienić – OpenAI ogłosiło właśnie bardzo duże nowości, które znacząco rozszerzają możliwości wchodzenia w interakcji z modelem. Bez przesady są to największe zmiany od czasu premiery.

Gdzie dziś jest ChatGPT i gdzie będzie za chwilę?

Według danych zgromadzonych przez firmę DemandSage z ChatGPT korzysta dziś regularnie około 100 mln osób , a od początku publicznych testów – bo należy pamiętać, że model znajduje się nadal w fazie „darmowych testów badawczych” – witryna zapewniająca interfejs pozwalający na konwersację z ChatGPT odwiedziło ponad 1 mld użytkowników. I choć jeden dzień działania silnika to kosz rzędu 700 tys. dolarów, to należy pamiętać o prognozach, według których do końca roku OpenAI wzbogaci się na ChatGPT o 200 mln dolarów.

Osobną kwestię stanowi integracja ChatGPT z oprogramowaniem produkowanym przez Microsoft, głównego inwestora w działalność badawczą OpenAI. Korporacja nie tylko skatalizowała pracę nad kolejną wersją modelu, GPT-4, z którego możliwości możemy korzystać w wyszukiwarce Bing, ale także uruchomi dziś Copilota dla ograniczonej liczby użytkowników, zaawansowanego asystenta bazującego na ChatGPT, który za sprawą głębokiej integracji z Windowsem ma szansę zasadniczo zmienić to, jak korzysta się tego systemu operacyjnego.

To krok milowy w rozwoju Windowsa. Copilot może zmienić to, jak korzystamy z komputerów osobistych

ChatGPT zyskuje słuch i mowę

Prace nad ChatGPT nie zatrzymują się, a można wręcz odnieść wrażenie, że przyśpieszają. OpenAI ogłosiło bowiem, ze w ciągu najbliższych dwóch tygodni część użytkowników ChatGPT zyska możliwość wydawania modelowi poleceń głosowych , będzie z nim mogła porozmawiać. Silnik będzie mógł do nas przemawiać w jednym z pięciu głosów.

Od strony technicznej nie jest to oczywiście w żaden sposób nowatorskie. Silniki przetwarzania mowy na tekst oraz tekstu na mowę to coś, czym dysponujemy od lat i dziwić może raczej, że OpenAI nie zdecydowało się na wprowadzenie podobnych nowości wcześniej , gdyż było to znacznie prostsze niż praca nad samym ChatGPT. Zwłaszcza że w przypadku poleceń użytkowników mamy do czynienia z klasycznym przetwarzaniem mowy na pośredni tekst, który jest później analizowany przez ChatGPT, nie zaś z sytuacją, w której model od razu przetwarza dźwięk.

Przetwarzanie obrazkowych danych wejściowych

Więcej uwagi może jednak przyciągać kolejna duża nowość, jaka lada moment trafi do ChatGPT. Tutaj faktycznie mamy do czynienia z fundamentalną zmianą tego, jak wchodzi się w interakcje z modelem, który przecież w pierwszej kolejności jest modelem przetwarzania języka naturalnego. A jednak wkrótce danymi wejściowymi, jakie będzie mógł dostarczyć użytkownik, będą mogły być obrazy .

Grafiki będzie można wrzucić do konwersacji w taki sam sposób, jak robi się to dziś w komunikatorach. Te będą przetworzone przez łączone możliwości GPT w wersji 3.5 oraz 4 w taki sposób, by interpretować to, co znajduje się na grafice, a następnie generować tekstowy opis . Ten będzie mógł już zostać przetworzony przez ChatGPT jak tekst pochodzący od człowieka. Dzięki temu kontekstem dla konwersacji z silnikiem będzie mogło być to, co dzieje się na obrazku.

Omówione nowości w pierwszej kolejności trafią do użytkowników Plus i Enterprise. Nastąpi to w ciągu najbliższych dwóch tygodni. Następnie będą z nich mogli korzystać deweloperzy pracujący z API ChatGPT. Następnie dostęp będzie rozszerzany na pozostałe grupy, w tym użytkowników korzystających z ChatGPT bezpłatnie.

DALL-E, czyli ChatGPT do generowania obrazów, wchodzi w nowy etap i robi oszałamiające wrażenie
Obserwuj nas w
autor
Maciej Olanicki

Dziennikarz biznesinfo.pl. W przeszłości redaktor prowadzący dobreprogramy.pl, miesięcznika „IT Professional”, współpracownik Wirtualnej Polski. Adres dla sygnalistów: olanicki@protonmail.com.
 

Chcesz się ze mną skontaktować? Napisz adresowaną do mnie wiadomość na mail: Dariusz.dziduch@iberion.pl
biznes finanse technologie praca handel Eko Energetyka polska i świat