DeepSeek R1: chiński LLM, który zmienił ekonomię sztucznej inteligencji

DeepSeek R1 nie jest tylko kolejnym chatbotem.

To sygnał, że przewaga w AI coraz częściej zależy od efektywności, otwartości wag i zdolności do taniego skalowania rozumowania.

DeepSeek R1 stał się jednym z najważniejszych punktów odniesienia w dyskusji o chińskich modelach językowych, ponieważ połączył trzy rzeczy, które rzadko występują razem: bardzo mocne wyniki w zadaniach rozumowania, publicznie dostępne wagi oraz narrację o radykalnej efektywności kosztowej.

W praktyce nie chodzi o to, czy każdy benchmark DeepSeek należy traktować jak bezpośredni dowód przewagi nad zamkniętymi modelami z USA.

Ważniejsze jest to, że DeepSeek przesunął granicę oczekiwań wobec modeli otwartych: skoro laboratorium spoza amerykańskiego centrum rynku potrafi opublikować model rozumujący, którego wyniki są porównywane z modelami klasy OpenAI o1, to firmy, uczelnie i administracja zaczynają inaczej liczyć koszty wdrożenia AI.

Najbardziej konkretna część historii zaczyna się od DeepSeek-V3.

W raporcie technicznym z grudnia 2024 r.

autorzy opisali model typu mixture-of-experts o 671 miliardach parametrów całkowitych i około 37 miliardach parametrów aktywnych na token.