Meta wydała duży model języka, LLaMA, dla badaczy sztucznej inteligencji z 13 miliardami i 65 miliardami parametrów.
Według twórców, mniejsza wersja LaMMA-13B wypadła lepiej „w większości testów” niż GPT-3 firmy OpenAI. Większy system LLaMA-65B jest „konkurencyjny wobec zaawansowanych modeli”, takich jak Chinchilla70B firmy DeepMind i PaLM 540B firmy Google.
Liczby w nazwach systemów odnoszą się do miliardów parametrów w każdym z nich. Kryterium to jest często używane do mierzenia złożoności modelu, ale te dwie cechy nie muszą skalować się synchronicznie.
Po wytrenowaniu LLaMA-13B może być uruchomiony na pojedynczym procesorze graficznym Nvidia Tesla V100. Według twórców, „demokratyzuje” to obliczenia dla mniejszych instytucji nieposiadających potężnego sprzętu.
Meta wierzy, że LaMMA pomoże ekspertom AI zidentyfikować problemy z modelami językowymi pod kątem stronniczości, toksyczności i tendencji do wymyślania informacji. W tym celu udostępnili algorytm na licencji niekomercyjnej.
„Wierzymy, że cała społeczność […] musi współpracować, aby stworzyć jasne wytyczne dla odpowiedzialnej AI w ogóle i odpowiedzialnych dużych modeli językowych w szczególności” – powiedziała firma.
Według dyrektora generalnego korporacji Marka Zuckerberga, modele językowe wykazują obiecujące wyniki w tworzeniu tekstów, konwersacji i przewidywaniu struktury białek.
Gigant technologiczny wcześniej wydał własne modele językowe, ale często były one krytykowane. W sierpniu 2022 roku Meta uruchomiła publiczną wersję chatbota Blenderbot 3 ze 175 miliardami parametrów. System został później oskarżony o antysemityzm.
Inny chatbot o nazwie Galactica Meta zamknął się zaledwie trzy dni po uruchomieniu. Zaprojektowany do streszczania prac naukowych system został oskarżony o tworzenie fałszywych informacji.
Przypomnijmy, że w listopadzie 2022 roku Meta odsłoniła algorytm AI Cicero, który gra w planszową grę strategiczną Diplomacy na poziomie człowieka.
W tym samym miesiącu laboratorium AI giganta technologicznego ujawniło sieć neuronową ESM-2 z 15 miliardami parametrów do przewidywania struktury białek.