Ostatnio bardzo dużo firm buduje własne, rozbudowane modele językowe. Jednak w przypadku naszej branży najbardziej interesującą jest ten tworzony przez giganta danych finansowych i newsów – firmę Bloomberg L.P.
Bloomberg to firma założona przez byłego majora Nowego Jorku Mike’a Bloomberga. Jest to hub danych finansowych z działem wiadomości. Teraz spółka zaprezentowała zupełnie nowy produkt – BloombergGPT. Według deweloperów, model językowy jest szkolony na „szerokim zakresie” danych finansowych, aby wspierać „różnorodny” zestaw zadań NLP.
Firma powiedziała, że podczas gdy postępy w dużych modelach językowych wykazały nowe zastosowania, „złożoność i unikalna terminologia domeny finansowej uzasadniają model specyficzny dla danej domeny.”
BloombergGPT będzie wykorzystywany do finansowych zadań NLP, takich jak analiza sentymentu, klasyfikacja wiadomości i odpowiadanie na pytania.
Model zostanie również wykorzystany do wprowadzenia nowych sposobów eksploracji ogromnych ilości danych na Bloomberg Terminal, który przez lata korzystał z klawiszy funkcyjnych i skomplikowanego interfejsu użytkownika.
CTO Bloomberga – Shawn Edwards, napisał na blogu, że BloombergGPT pozwoli firmie na szybsze zajęcie się nowymi typami aplikacji. Co więcej, już na starcie da „wyższą wydajność” niż tworzenie własnych modeli dla każdej aplikacji.
Dokument przedstawiający model można znaleźć na arXiv.
Jak wypada BloombergGPT?
Pod względem rozmiaru, BloombergGPT składa się z 50 miliardów parametrów. Aby umieścić to w perspektywie, GPT-3 OpenAI, który niedawno został zastąpiony przez GPT-4, ma 175 miliardów parametrów.
BloombergGPT jest stosunkowo mały jak na LLM, a najbliższym porównaniem wielkości byłby model LLaMA Meta – składający się z 65 miliardów parametrów. Jednak model ten jest szkolony specjalnie do bardzo specyficznych zadań NLP w dziedzinie finansów, co oznacza, że nie potrzebuje bardziej ogólnych danych jak model OpenAI.
Model został stworzony przy użyciu obszernego archiwum danych finansowych Bloomberga. Dane te składały się z 363 miliardów tokenów pochodzących z angielskich dokumentów finansowych oraz 345 miliardów tokenów z publicznych zbiorów danych. To pozwoliło na stworzenie dużego korpusu szkoleniowego z ponad 700 miliardami tokenów.
Inżynierowie Bloomberg ML wytrenowali następnie 50-miliardowy model języka przyczynowego. Został on zweryfikowany na benchmarkach NLP specyficznych dla finansów, jak również na zestawie wewnętrznych standardów.
W odniesieniu do popularnych benchmarków NLP, takich jak BIG-bench Hard i MMLU, Bloomberg powiedział, że jego model „przewyższa istniejące otwarte modele o podobnej wielkości w zadaniach finansowych z dużym marginesem, jednocześnie osiągając równe lub lepsze wyniki w ogólnych benchmarkach NLP.”
BloombergGPT okazał się rywalizować z większymi modelami open source, takimi jak Bloom i OPT-66B jeśli chodzi o benchmarki specyficzne dla finansów. Uzyskał również lepsze wyniki niż mniejsze modele open source, takie jak GPT-NeoX firmy Hugging Face.
W bardziej ogólnych testach benchmarkowych BloombergGPT nie zdołał jednak pokonać GPT-3 OpenAI, ale osiągnął wyniki, które nie by zbyt odległe.
Inne modele AI
Wraz ze wzrostem zainteresowania LLM, rośnie liczba graczy tworzących własne iteracje. W zeszłym tygodniu Cerebras, startup zajmujący się produkcją układów scalonych, zaprezentował własne duże modele językowe wyszkolone na swoim superkomputerze AI, Andromedzie. Z kolei Salesforce stworzył EinsteinGPT do zarządzania relacjami z klientami.
Same koszty związane z tworzeniem takich modeli mogą sprawić, że wiele firm zrezygnuje z takiego pomysłu. Jednak ostatnio pojawiło się kilka wyjątków od tej reguły. Badacze AI ze Stanford zaprezentowali Alpaca, model językowy wyszkolony za jedyne 600 dolarów. Z kolei Databricks pokazało klona ChatGPT – Dolly, który został wykonany za jedyne 30 dolarów.
Ale według niektórych osób znanych w świecie technologii, rozwój AI powinien całkowicie zatrzymać się na sześć miesięcy, aby zbadać wpływ sztucznej inteligencji. Elon Musk i Steve Wozniak, współzałożyciel Apple, podpisali list otwarty wzywający do wstrzymania rozwoju AI. Jednak przez niektórych pomysł ten został wyszydzony, np. przez laureata nagrody Turinga Yanna LeCuna.