OpenAI prezentuje model generacji obrazów POINT-E 3D

OpenAI udostępniło nowy algorytm generowania obrazów 3D przez zapytanie tekstowe POINT-E.

Według badań, model ten wymaga jednego procesora graficznego Nvidia V100 i około dwóch minut na stworzenie obrazu.

Algorytm nie tworzy obiektów 3D w tradycyjnym rozumieniu. Generuje „chmury punktów” lub dyskretne zestawy punktów danych w przestrzeni, które reprezentują trójwymiarowy kształt.

Badacze zauważyli, że takie dane są obliczeniowo łatwiejsze do zsyntetyzowania. Nie obejmują one jednak szczegółowej struktury, kształtu czy faktury obiektu.

grafiki modeli w 3D generowanych przez POINT-E 3D

Aby obejść to ograniczenie, zespół OpenAI wytrenował dodatkowy system AI do konwersji chmur punktów POINT-E na siatki.

Sam POINT-E składa się z dwóch części:

Model konwersji tekstu na obraz;
Model konwersji obrazów 3D.

Model konwersji tekstu na obraz działa podobnie jak w DALL-E 2. Został wytrenowany na etykietowanych obrazach, dzięki czemu algorytm rozumie skojarzenia między słowami a pojęciami wizualnymi.

Model image-to-3D został wytrenowany na parach obraz-trójwymiarowy obiekt.

Na przykład, jeśli wprowadzono zapytanie tekstowe „Cat eats burrito”, POINT-E najpierw wygeneruje syntetyczny obraz zgodnie ze wskazówką tekstową. Drugi model zsyntetyzuje następnie przybliżoną „chmurę” z 1024 punktów, a następnie wzmocni obiekt 3D do 4096 punktów.

grafika generowania obrazów punktowych POINT-E

Po wytrenowaniu modeli na zbiorze danych „kilku milionów” obiektów 3D i związanych z nimi metadanych, naukowcy stwierdzili, że POINT-E może tworzyć kolorowe chmury punktów, aby dopasować je do wskazówek tekstowych. Uznali oni nieidealną wydajność modelu, ale zwrócili uwagę na szybkość generowania.

„Chociaż nasza metoda ma gorsze wyniki w tej ocenie niż metody state-of-the-art, daje próbki w niewielkim ułamku czasu. Może to uczynić go bardziej praktycznym dla niektórych zastosowań lub pozwolić na lepsze wykrywanie obiektów 3D”

OpenAI zamieściło otwarty kod źródłowy projektów na GitHubie.

Przypomnijmy, że w grudniu firma wprowadziła ChatGPT, chatbota opartego na rozbudowanym modelu językowym.

W kwietniu OpenAI wydało drugą wersję tekstowego generatora obrazów DALL-E.

WhatsApp wprowadza funkcję zapisywania kontaktów w chmurze

Panika wśród zwolenników Ethereum: Solana grozi prześcignięciem ETH

Europejskie startupy FinTech zyskują na popularności

Darmowe pieniądze za rejestrację w aplikacji

WhatsApp wprowadza funkcję zapisywania kontaktów w chmurze

Panika wśród zwolenników Ethereum: Solana grozi prześcignięciem ETH

Europejskie startupy FinTech zyskują na popularności

Darmowe pieniądze za rejestrację w aplikacji

WhatsApp wprowadza funkcję zapisywania kontaktów w chmurze

Panika wśród zwolenników Ethereum: Solana grozi prześcignięciem ETH

Europejskie startupy FinTech zyskują na popularności

OpenAI prezentuje model generacji obrazów POINT-E 3D

Ostatnie artykuły w tej kategorii:

Subskrybuj Fintechportal