Zdaniem eksperta
Google nieustannie rozwija swoje narzędzia oparte na sztucznej inteligencji, a jednym z najnowszych osiągnięć jest Imagen 3 - zaawansowany generator obrazów z tekstu. Od teraz jest dostępny dla wszystkich użytkowników Google Gemini, zarówno na komputerach, jak i urządzeniach mobilnych. Mimo że model oferuje znakomitą jakość generowanych obrazów, wprowadza pewne ograniczenia, które mogą irytować użytkowników.
Imagen 3, najnowszy model sztucznej inteligencji od Google, jest już dostępny dla użytkowników Gemini na całym świecie zarówno na komputerach, jak i urządzeniach mobilnych. To znacząca aktualizacja, która stawia na poprawę jakości obrazów oraz lepsze rozumienie poleceń tekstowych. Co więcej, generator obrazów dostępny jest nawet dla użytkowników bezpłatnej wersji, jednak istnieje pewne istotne ograniczenie. Aby wygenerować obrazy z udziałem ludzi, użytkownik musi posiadać płatną subskrypcję Gemini Advanced, która kosztuje około 19,99 USD miesięcznie. To może być frustrujące dla tych, którzy liczą na pełną funkcjonalność narzędzia w wersji darmowej.
Google promuje Imagen 3 jako najlepszy model generowania obrazów oparty na sztucznej inteligencji, charakteryzujący się precyzyjnym odwzorowaniem szczegółów, bogatszym oświetleniem oraz mniejszą ilością wizualnych artefaktów w porównaniu z poprzednimi wersjami. Model ten radzi sobie z tworzeniem różnorodnych obrazów - od fotorealistycznych krajobrazów po stylizowane obrazy malarskie i bardziej nietypowe formy, jak sceny z animacji plastelinowych (claymation). Dla twórców poszukujących unikalnych efektów wizualnych, Imagen 3 może okazać się niezastąpionym narzędziem.
Jednym z kluczowych udoskonaleń jest zdolność lepszego rozumienia złożonych poleceń, co pozwala na generowanie bardziej zróżnicowanych stylów wizualnych. Nie trzeba już tworzyć skomplikowanych poleceń, by osiągnąć pożądany efekt. Wystarczy naturalny język, aby sztuczna inteligencja wygenerowała obrazy zgodne z oczekiwaniami.
Jednak, mimo wszystkich zalet, Imagen 3 ma jedno kluczowe ograniczenie – darmowa wersja nie pozwala na generowanie obrazów z udziałem ludzi. Użytkownicy mogą tworzyć obrazy przedstawiające zwierzęta, krajobrazy, obiekty i inne elementy, ale generowanie postaci ludzkich jest zarezerwowane tylko dla subskrybentów planu Gemini Advanced. To istotne ograniczenie, zwłaszcza dla osób, które oczekują od AI pełnej wszechstronności w tworzeniu różnych typów obrazów. Subskrypcja Gemini Advanced to koszt rzędu 19,99 USD miesięcznie i daje nie tylko możliwość tworzenia obrazów z ludźmi, ale także dodatkowe korzyści, jak 2 TB miejsca w chmurze w ramach Google One AI Premium Plan.
Poza tym ograniczeniem, użytkownicy darmowej wersji Imagen 3 nie muszą martwić się o inne restrykcje. Można generować i pobierać nieograniczoną liczbę obrazów w wysokiej rozdzielczości (2048 x 2048 pikseli) w formacie JPEG. To znacząca korzyść, szczególnie w kontekście darmowego dostępu do tak zaawansowanego narzędzia. Użytkownicy mają więc swobodę w tworzeniu obrazów, o ile nie zawierają one postaci ludzkich.
Jednym z aspektów, które Google podkreśla w przypadku Imagen 3, jest jego zdolność do renderowania tekstu, co może być użyteczne na przykład przy tworzeniu komiksów czy innych projektów, w których tekst i obraz współistnieją. Jednakże, mimo deklaracji Google, funkcja ta wciąż wymaga dopracowania. W testach, np. podczas tworzenia panelu komiksowego, tekst w chmurce dialogowej był nieczytelny, co pokazuje, że technologia wciąż jest w fazie rozwoju w tym zakresie.
Imagen 3 ma wszystko, by stać się jednym z najważniejszych narzędzi do generowania obrazów z tekstu, zwłaszcza jeśli weźmiemy pod uwagę jego liczne funkcje i zalety. Możliwość tworzenia realistycznych krajobrazów, artystycznych obrazów w stylu olejnym, a nawet bardziej eksperymentalnych form, takich jak rzeźby zbudowane z liter, daje ogromne pole do popisu dla twórców. Google stawia także na odpowiedzialność i bezpieczeństwo, filtrując potencjalnie szkodliwe treści i dbając o etyczne wykorzystanie technologii.