MGIE wykorzystuje multimodalne modele dużego języka (MLLM, ang. Multimodal Large Language Models) do interpretacji słów.

MLLM-Guided Image Editing (MGIE) zdjęcia pizzy, zwierząt, komputera i osoby — MLLM-Guided Image Editing (MGIE), zdjęcia pizzy, zwierząt, komputera i osoby | fot. Apple

Apple nie jest obecnie jednym z czołowych graczy w dziedzinie sztucznej inteligencji, ale nowy model sztucznej inteligencji o otwartym kodzie źródłowym do edycji obrazów pokazuje, co może wnieść w tę przestrzeń. Model o nazwie MLLM-Guided Image Editing (MGIE) wykorzystuje multimodalne modele dużego języka (MLLM) do interpretowania poleceń tekstowych podczas manipulowania obrazami. Innymi słowy, narzędzie umożliwia edycję zdjęć na podstawie tekstu wpisywanego przez użytkownika. Chociaż nie jest to pierwsze narzędzie, które może to zrobić, „instrukcje ludzkie są czasami zbyt krótkie, aby obecne metody mogły je uchwycić i śledzić” – wynika z projektu (PDF).

Tim Cook zapowiedział AI na urządzeniach Apple’a

Firma opracowała MGIE we współpracy z naukowcami z Uniwersytetu Kalifornijskiego w Santa Barbara. MLLM mają moc przekształcania prostych lub niejednoznacznych podpowiedzi tekstowych w bardziej szczegółowe i jasne instrukcje, które może przestrzegać sam edytor zdjęć. Na przykład, jeśli użytkownik chce edytować zdjęcie pizzy pepperoni, aby „uczynić ją zdrowszą”, MLLM może zinterpretować to jako „dodanie dodatków warzywnych” i w ten sposób edytować zdjęcie.

Oprócz wprowadzania większych zmian w obrazach, MGIE może także przycinać, zmieniać rozmiar i obracać zdjęcia, a także poprawiać ich jasność, kontrast i balans kolorów, a wszystko to za pomocą podpowiedzi tekstowych. Może także edytować określone obszary zdjęcia i na przykład modyfikować włosy, oczy i ubranie znajdującej się na nim osoby lub usuwać elementy z tła.

Jak zauważa VentureBeat, Apple wypuściło model za pośrednictwem GitHuba, ale zainteresowani mogą również wypróbować wersję demonstracyjną, która jest obecnie hostowana w Hugging Face Spaces.

Apple nie zapowiedziało jeszcze, czy planuje wykorzystać wiedzę zdobytą w ramach tego projektu w narzędziu lub funkcji, które będzie mógł włączyć do któregokolwiek ze swoich produktów.

➔ Obserwuj nas w Google News, aby być na bieżąco!

źródło: Apple | Engadget

Łukasz Majchrzyk

Od 2005 roku zajmuję się komunikacją internetową i e-marketingiem, jestem pasjonatem urządzeń mobilnych oraz nowych technologii – i nie waham się ich używać.

mobirank.pl

mobiRANK.pl

Apple wypuściło model sztucznej inteligencji MGIE edytujący obrazy na podstawie poleceń tekstowych

MGIE wykorzystuje multimodalne modele dużego języka (MLLM, ang. Multimodal Large Language Models) do interpretacji słów.