Sztuczna inteligencja! To określenie praktycznie nie schodzi wielu ludziom z ust, niezależnie od tego, jakim językiem się posługują (pod warunkiem że mają dostęp do Internetu, rzecz jasna). Na koniec roku 2023 zaś podziało się w tej materii całkiem sporo. Zamieszał m.in. Google, prezentując swój nowy model językowy (czy raczej – jego całą rodzinę) – Gemini. Co więcej – to była nie tylko prezentacja, ale został też upubliczniony. Chcesz dowiedzieć się o nim więcej? W takim razie zachęcamy do lektury!
Czym jest Gemini?
Gemini to rodzina zaawansowanych modeli językowych, którą opracował Google i przedstawił ją 6 grudnia. Obecnie mogą z niej korzystać m.in. użytkownicy Barda (czyli jest dostępny w około 170 krajach i regionach), choć – należy zaznaczyć, jedynie w języku angielskim. Programiści od 13 grudnia mogą z niego korzystać także w interfejsie API w Google Cloud. Co istotne – to modele multimodalne, zdolne generalizować, rozumieć i korzystać z różnych źródeł informacji. To oznacza, że są w stanie jednocześnie wykorzystać:
- tekst,
- obraz,
- dźwięk,
- video,
- kod,
by wygenerować potrzebne informacje. To o tyle istotne, że wcześniej opracowywane modele językowe były zbudowane z oddzielnych komponentów, zdolnych pozyskiwać informacje z tylko jednego typu źródła danych. Dodatkowo Gemini pracuje w oparciu o technologię Tensor Processing Units v4 i v5e. Wszystko to oznacza, że to niezwykle wydajny model, czym gigant z Mountain View, delikatnie ujmując, przechwala się na prawo i lewo. Wyraźnie nowo opublikowane rozwiązanie ma być próbą prześcignięcia głównego konkurenta, jakim jest ChatGPT od OpenAI.
Nano, Pro, Ultra – różne warianty Gemini
Powyżej wspomnieliśmy, że Gemini de facto stanowi rodzinę dużych modeli językowych (z angielskiego nazywanych LLM-ami – large language models). Ma on bowiem trzy warianty:
- Nano,
- Pro,
- Ultra.
Nano został zaprojektowany dla urządzeń mobilnych i aplikacji, które są instalowane na takim sprzęcie. Obecnie, w drodze aktualizacji, zaczął korzystać z niego smartfon Pixel 8 Pro. Ma on działać również offline, służąc np. do podsumowania danych z konkretnych aplikacji. Pro z kolei ma być podstawą wszelkich usług Google’a, wykorzystujących sztuczną inteligencję. Obecnie został on zaimplementowany do Barda, a także Google AI Studio (prostego narzędzia do tworzenia aplikacji i chatbotów) oraz Cloud Vertex AI (platformy do tworzenia i wdrażania modeli uczenia maszynowego, dostępnej w Google Cloud).
Gemini Ultra to najwydajniejszy wariant tego modelu. Jest on skierowany przede wszystkim do klientów korporacyjnych i centrów danych. Na razie jednak nie trafił on do użytku klientów – ma zostać udostępniony dopiero w 2024 roku.
Jakie możliwości ma Gemini?
Przetwarzanie danych jednocześnie pochodzących z różnych źródeł, tj. obrazu, dźwięku czy kodu – brzmi to, jak niemała rewolucja w technologii AI. Na swoim blogu Google prezentuje wyniki testów, które wykonali z użyciem swoich modeli, jak i przy wykorzystaniu narzędzi od głównej konkurencji – czyli ChataGPT 4 i 4V. Demis Hassabis – współtwórca i CEO Google DeepMind, stwierdził, że są „znacznie z przodu w 30 na 32 testy”. Sugeruje to więc, że Gemini już teraz prześcignął zaawansowane przecież modele językowe od OpenAI.
Z kolei Sundar Pichai – czyli CEO Google’a i Alphabet, przekonuje również, że sztuczna inteligencja (w domyśle – z pewnością – ICH sztuczna inteligencja) zrewolucjonizuje świat, wyróżniając szereg pól, na których można ją wykorzystać – od codzienności, przez działanie firm po rozwój nauki. Obaj panowie twierdzą, że nie zależy im na tworzeniu jeszcze bardziej inteligentnej maszyny, a pomocnika, będącego w stanie wesprzeć użytkownika w wykonywaniu najróżniejszych zadań – od odrabiania lekcji, przez przeliczanie danych statystycznych, po tworzenie skomplikowanych kodów w Pythonie czy C++. Czy jednak faktycznie tak będzie? Cóż…
Gemini – tytan? Czy Titanic?
Liczby przytoczone przez Google’a, wskazujące na przewagę jego modelu językowego nad konkurencją, a także – w teście MMLU, sprawdzającego wiedzę o świecie (w tym z historii i matematyki) i zdolność rozwiązywania problemów – nad ludzkimi ekspertami, mogą imponować. Model ChatGPT-4 osiągnął rezultat 86,4%, specjaliści 89,8%, a Gemini Ultra – 90,0%. Tym samym stanowi on pierwszy model językowy, któremu udało się w tym „egzaminie” prześcignąć człowieka.
Czy jednak Gemini jest tak genialny, jak go przedstawiono? Są ku temu pewne wątpliwości o solidnych podstawach. Mianowicie – do prezentacji wykorzystano film, w którym – dla lepszego efektu, zastosowano WRAŻENIE (tak, to dobre słowo) wyjaśniania tego, co dzieje się w czasie rzeczywistym. Podkreślmy – nie była to prezentacja live. Zresztą – co będziemy Ci mówić, jak to wyglądało. Obejrzyj sam!
Robi wrażenie, prawda? Z tym że, jeśli weźmie się pod uwagę, co właściwie tu zaszło, to niekoniecznie. Bo do stworzenia tego filmiku potrzebny był stary, dobry prompting, czyli – tak najprościej ujmując – wpisywanie określonych poleceń i podpowiedzi, a także zapytań. Model nie dostał również filmików do analizy, a jedynie wybrane klatki z nich. Nie myśl więc, że jeśli – o ile byłaby taka możliwość – odpalisz aparat z Gemini Pro i zaczniesz mu pokazywać niebieską kaczkę, to zacznie mówić o rasach zwierząt o takim odcieniu.
Inna sprawa – testy, których wyniki Google zaprezentował, były ich WEWNĘTRZNYMI benchmarkami. Nie było tutaj żadnych niezależnych ekspertów. Biorąc pod uwagę fakt, jak próbowano wbijać szpile ChatGPT-4, testowanemu już od dłuższego czasu przez mnóstwo użytkowników z całego świata, wygląda to trochę słabo (tym bardziej że ptaszki ćwierkają, na razie nieśmiało, że na horyzoncie widać ChatGPT-4.5!).
Doświadczenie najlepszym sposobem poznania! Dlatego zrobiliśmy mały test w Bardzie. Pokazaliśmy mu zrzut ekranu z pudełkiem lodów Bambino (taka mała tęsknota za dawnymi czasami nas dopadła…) i zapytaliśmy, czy wie, co to jest. Proste.
Pewne informacje, które Bard podał (przyjmując, że w j. angielskim już działa ze wsparciem Gemini Pro), były zaskakujące np. dotyczące tego, kiedy zdjęcie zostało zrobione, choć, prawdę mówiąc – trudno to zweryfikować. Natomiast sromotnie pomylił się w kwestii ceny (przy czym tę informację miał wyraźnie wskazaną), a także producenta (musieliśmy o niego dopytać).
Co ciekawe – gdy pytanie padło po polsku, Bard zechciał odpowiedzieć, że producentem był… Wedel. Fani tych słodkich smakołyków z pewnością oburzyliby się, wiedząc doskonale, że był to specjał OSM Stargard Szczeciński (późniejsze – i niestety, upadłe już – Starco). Teraz, co prawda, też można znaleźć lody Bambino, ale… to już nie to samo… Do nich zresztą odniósł się Bard (już po angielsku, więc – teoretycznie, z pomocą Gemini), odpowiadając na pytanie o producenta, przy czym produkt widoczny na zdjęciu jest zupełnie inny niż słodycze dostępne obecnie w sprzedaży.
My będziemy na bieżąco z nowościami. A Ty?
Nie zrozum nas źle – kibicujemy każdemu, kto chce czynić sztuczną inteligencję lepszą, sprawniejszą, bardziej pomocną – być może także w prowadzeniu skuteczniejszych akcji marketingowych w sieci, na czym niewykluczone, że skorzysta Twoja firma. Nie zgadzamy się jednak na jakikolwiek bullshit. To jedna z naszych dewiz. Tymczasem materiał promocyjny związany z Gemini – niestety – trochę nim zalatuje. Będziemy jednak bacznie się przyglądać temu, jak ten model – i wiele innych dostępnych na rynku – się rozwija. Tym bardziej że, jak gigant z Mountain View się odgraża – „Bliźniaki” to przyszłość Google’a. A jeśli Ty chcesz zadbać o przyszłość swojej firmy w sieci i oddać jej promocję i pozycjonowanie w ręce specjalistów – w SEMTREE czekamy na Ciebie. Skontaktuj się z nami!