OpenAI udostępniło nowy algorytm generowania obrazów 3D przez zapytanie tekstowe POINT-E.
Według badań, model ten wymaga jednego procesora graficznego Nvidia V100 i około dwóch minut na stworzenie obrazu.
Algorytm nie tworzy obiektów 3D w tradycyjnym rozumieniu. Generuje „chmury punktów” lub dyskretne zestawy punktów danych w przestrzeni, które reprezentują trójwymiarowy kształt.
Badacze zauważyli, że takie dane są obliczeniowo łatwiejsze do zsyntetyzowania. Nie obejmują one jednak szczegółowej struktury, kształtu czy faktury obiektu.
Aby obejść to ograniczenie, zespół OpenAI wytrenował dodatkowy system AI do konwersji chmur punktów POINT-E na siatki.
Sam POINT-E składa się z dwóch części:
- Model konwersji tekstu na obraz;
- Model konwersji obrazów 3D.
Model konwersji tekstu na obraz działa podobnie jak w DALL-E 2. Został wytrenowany na etykietowanych obrazach, dzięki czemu algorytm rozumie skojarzenia między słowami a pojęciami wizualnymi.
Model image-to-3D został wytrenowany na parach obraz-trójwymiarowy obiekt.
Na przykład, jeśli wprowadzono zapytanie tekstowe „Cat eats burrito”, POINT-E najpierw wygeneruje syntetyczny obraz zgodnie ze wskazówką tekstową. Drugi model zsyntetyzuje następnie przybliżoną „chmurę” z 1024 punktów, a następnie wzmocni obiekt 3D do 4096 punktów.
Po wytrenowaniu modeli na zbiorze danych „kilku milionów” obiektów 3D i związanych z nimi metadanych, naukowcy stwierdzili, że POINT-E może tworzyć kolorowe chmury punktów, aby dopasować je do wskazówek tekstowych. Uznali oni nieidealną wydajność modelu, ale zwrócili uwagę na szybkość generowania.
„Chociaż nasza metoda ma gorsze wyniki w tej ocenie niż metody state-of-the-art, daje próbki w niewielkim ułamku czasu. Może to uczynić go bardziej praktycznym dla niektórych zastosowań lub pozwolić na lepsze wykrywanie obiektów 3D”
OpenAI zamieściło otwarty kod źródłowy projektów na GitHubie.
Przypomnijmy, że w grudniu firma wprowadziła ChatGPT, chatbota opartego na rozbudowanym modelu językowym.
W kwietniu OpenAI wydało drugą wersję tekstowego generatora obrazów DALL-E.