Microsoft zaprezentował sieć neuronową Kosmos-1, która jako dane wejściowe łączy tekst, obrazy, treści audio i wideo.
Naukowcy nazywają system "multimodalnym wielkim modelem językowym". Według nich, takie algorytmy będą stanowiły podstawę ogólnej inteligencji (AGI), która będzie w stanie wykonywać zadania na poziomie człowieka. Badacze stwierdzili:
"Jako podstawowy element inteligencji, multimodalna percepcja jest niezbędna do osiągnięcia AGI w zakresie nabywania wiedzy i powiązania ze światem rzeczywistym
Według przykładów zawartych w pracy, Kosmos-1 może:
Microsoft wytrenował Kosmos-1 na danych z Internetu, w tym na 800 GB anglojęzycznym zasobie tekstowym The Pile i archiwum internetowym Common Crawl. Po treningu badacze oceniali zdolności modelu w kilku testach:
Według Microsoftu, Kosmos-1 przewyższył obecne modele w wielu z tych testów. Badacze planują wkrótce opublikować kod źródłowy projektu na GitHubie.
Przypomnijmy, że w styczniu Microsoft ujawnił symulator ludzkiego głosu oparty na krótkiej próbce VALL-E.