Na początku kwietnia DALLE-3 zostało wyposażone w nowy update, którym jest inpainting – funkcja pozwalająca na edycję zdjęć, również fragmentarycznie.

Inpainting i DALLE

Czym dokładnie jest inpainting? W kontekście modeli generatywnych jest to metoda pozwalająca na edycję zdjęć za pomocą promptów – dodawanie elementów oraz edycję zaznaczonych fragmentów obrazu. Opcja ta przydatna jest z perspektywy biznesowej – dzięki inpaintingowi każdy może stać się grafikiem i z łatwością przerabiać istniejące assety na bieżące potrzby.

Czym natomiast jest DALLE-3? Jest to model generatywny od OpenAI, który pozwala na generowanie obrazów. Dostępny jest przez ChatGPT na subskrypcji GPT-4.

Czy w takim razie mówimy o kolejnym przełomie spod bandery openAI? Nie tym razem. Inpaiting nie jest niczym nowym – od dawna korzystamy z niego w narzędziu Fooocus (obejrzyj nasz tutorial i samodzielnie przetestuj to narzędzie!) A może DALLE-3 jest w tym lepszy?

Żeby się o tym przekonać, postanowiliśmy porównać te dwa narzędzia i podzielić się z Wami efektami.

Test

Przed przedstawieniem efektów naszego eksperymentu warto jednak pamiętać następujące założenia – oba modele z dużym prawdopodobieństwem były testowane na różnych danych, dlatego też dla różnych domen mogą się różnie zachowywać. Może to wpływać na wynik naszych testów. 

Jak przeprowadziliśmy eksperyment? Wygenerowaliśmy dwa obrazki za pomocą DALLE-3,  a następnie edytowaliśmy za pomocą identycznych promptów dla tak samo zaznaczonych obszarów.

Na początku poprosiliśmy DALLE o wygenerowanie zdjęcia marsjańskiej pustyni oraz małpki trzymającej butelkę wody:

Inpaiting na Marsie

Na początku na warsztat wzięliśmy pustynną wizualizację. Poprosiliśmy oba modele o wygenerowania nowoczesnego miasta z wieżowcami w zaznaczonym centrum. I tu falstart – za pierwszym podejściem DALLE-3 zwróciło “nic” – na grafice nie pojawiły się żadne zmiany.

Za drugim podejściem DALLE poradził już sobie z “domalowaniem” wieżowców. Poniżej porównanie, jakie efekty uzyskaliśmy dla tego samego prompta od DALLE oraz Fooocusa: 

Fooocus wydaje się poradzić sobie znacznie lepiej w momencie dokładnego oznaczenia obszaru, w którym chcemy dodać nowy element. DALLE stracił w tym przypadku na jakości swojego inpaitingu. 

Warto tutaj dodać, że DALLE dobrze radzi sobie z dodawaniem konkretnych elementów (z promptu) ale w dowolnym miejscu na zdjęciu wyjściowym – przykład poniżej, w którym zrezygnowaliśmy z zaznaczenia obszaru pod edycję (co właściwie jest główną zaletą inpaitingu, ale chcieliśmy dać DALLE szansę). 

W drugiej iteracji poprosiliśmy o statek kosmiczny. DALLE zaczął od swojego starego tricku – nie pojawił się żaden statek, chociaż DALLE uparcie zapewniał nas że, “The Mars landscape now includes a sleek, futuristic rocket ship poised for launch, adding an element of human exploration and progress to the scene.” Dla pewności poprosiliśmy go drugi raz o to samo, ale ewidentnie był już zmęczony i nie chciał współpracować. 😉

Natomiast Fooocus bardzo dobrze poradził sobie z zadaniem i dodał do zdjęcia co trzeba:

Małpka, czyli stosunek AI do zwierząt

Następnie postanowiliśmy pobawić się z naszą małą, sympatyczną małpką. Kowbojski kapelusz albo wojskowy hełm? To nie problem dla obu modeli. Chociaż w tym wypadku oba modele zwróciły prawidłowe figury, te od DALLE wydają się lepiej pasować naszej modelce.

Podejście drugie – zażyczyliśmy sobie w scenie drugą małpkę próbującą ukraść butelkę z wodą. Modele z łatwością wygenerowały zwierzę, ale definitywnie różnie zrozumiały, o jakie butelki nam chodziło.

No to DALLE czy Fooocus? Nasze wnioski

Jakie wnioski płyną z naszego testu? Inpainting w DALLE 3 wydaje się nie być aż takim “wow”, do jakiego przyzwyczailiśmy po osiągnięciach OpenAI. Jak dla nas – w niczym nie przewyższa on Fooocusa, który jednocześnie dostępny jest jako darmowe narzędzie. 

Podczas naszych testów DALLE dwukrotnie po prostu zawiódł i nie wygenerował nic. Pierwsze “marsjańskie” miasto, które wygenerował w zaznaczonym obszarze również nie zachwyciło i zwyczajnie nie pasowało do sceny. Pod tym względem Fooocus zostawił DALLE daleko w tyle. 

Analizując przykład małpki – oba modele dobrze sobie poradziły, a DALLE zaskoczył niemal perfekcyjnym dopasowaniem dodatkowych elementów. Skąd te różnice? Odpowiedź może leżeć w dystrybucji danych, na których modele były uczone. Po prostu przykład małpki mógł być lepiej dostosowany do tego, na czym DALLE został wytrenowany wcześniej. Fooocus wydaje się lepiej radzić z realistycznymi dodatkami i realizacjami.

Co równie ważne, jak skuteczność – oba modele dają dużą frajdę użytkowania i w odpowiednich warunkach mogą nas skutecznie wspomóc podczas pracy graficznej. Dla nas faworytem zostaje jednak Fooocus.

Twoja lepsza wiedza i praktyczne umiejętności = nasz AI Newsletter.