Oparta na sztucznej inteligencji technologia Google’a do skalowania grafiki może generować obrazy o wysokiej rozdzielczości z obrazów o niskiej jakości.
Firma Google wydała technologię skalowania obrazu opartą na sztucznej inteligencji, która ma poprawiać jakość obrazów o niskiej rozdzielczości. W poście na blogu Google AI naukowcy z Brain Team przedstawili dwa modele dyfuzji do generowania obrazów o wysokiej wierności. Te dwa modele to superrozdzielczość obrazu (SR3) i kaskadowe modele dyfuzji (CDM). Modele te mają wiele zastosowań, w tym ulepszanie systemów obrazowania medycznego.
Pierwszym wynikiem modelu jest obraz Super-Resolution via Repeated Refinement lub SR3. Metoda ta została zdefiniowana przez zespół badawczy jako „model dyfuzji super rozdzielczości, który przyjmuje jako dane wejściowe obraz o niskiej rozdzielczości i buduje odpowiadający mu obraz o wysokiej rozdzielczości z czystego szumu”.
Aby to wdrożyć, maszyna wykorzystuje proces zniekształcania obrazu, w którym szum jest konsekwentnie dodawany do obrazu o wysokiej rozdzielczości, aż pozostanie tylko czysty szum. Następnie odwraca proces, który usuwa szum i osiąga docelowy rozkład „poprzez prowadzenie wejściowego obrazu o niskiej rozdzielczości”.
Niektóre wyniki przedstawione przez zespół badawczy Google’a są bardzo imponujące i pokazują, jak tę metodę można wykorzystać do skutecznego poprawienia jakości obrazu zdjęć o niskiej rozdzielczości. Jak napisano w poście, super rozdzielczość może mieć wiele zastosowań, w tym ulepszanie istniejących systemów obrazowania medycznego i przywracanie starych portretów rodzinnych.
Gdy model SR3 wykazał skuteczność, zespół Brain Team wykorzystał model do generowania obrazu w warunkach klasowych. CDM jest wyjaśnione przez naukowców jako „klasowy model dyfuzji warunkowy wyszkolony na danych ImageNet w celu generowania naturalnych obrazów o wysokiej rozdzielczości”.
Jak napisano w poście, Google zbudował CDM jako „kaskadę wielu modeli dyfuzji”, ponieważ ImageNet był trudnym zbiorem danych o wysokiej entropii. Model jest kombinacją wielu modeli dyfuzyjnych, które mogą generować obrazy o coraz większej rozdzielczości. Rozpoczyna się od standardowego modelu dyfuzji w najniższej rozdzielczości, a następnie następuje sekwencja modeli o super rozdzielczości, które mogą sukcesywnie powiększać obraz i dodawać szczegóły o wyższej rozdzielczości.
Wraz z SR3 Google stosuje również nową technikę wzbogacania danych, zwaną „augmentacją warunkową”, która ma jeszcze bardziej poprawić wyniki jakości próbek w CDM.
Korzystając z metody CDM, obraz o niskiej rozdzielczości 64×64 pikseli może zostać rozproszony do rozdzielczości 264×264 pikseli, a następnie do 1024×1024 pikseli.
Wprowadzając te modele, Google stara się ulepszyć naturalną syntezę obrazu, która ma szerokie zastosowanie, ale stwarza wyzwania projektowe. „Dzięki SR3 i CDM zwiększyliśmy wydajność modeli dyfuzyjnych na najwyższym poziomie w testach porównawczych super-rozdzielczości i warunkowych w klasie generacji ImageNet” – napisali naukowcy w poście na blogu.
źródło: Google AI Blog — High Fidelity Image Generation Using Diffusion Models | Business Insider