DeepSeek R1: chiński LLM, który zmienił ekonomię sztucznej inteligencji
DeepSeek R1 nie jest tylko kolejnym chatbotem.
To sygnał, że przewaga w AI coraz częściej zależy od efektywności, otwartości wag i zdolności do taniego skalowania rozumowania.
DeepSeek R1 stał się jednym z najważniejszych punktów odniesienia w dyskusji o chińskich modelach językowych, ponieważ połączył trzy rzeczy, które rzadko występują razem: bardzo mocne wyniki w zadaniach rozumowania, publicznie dostępne wagi oraz narrację o radykalnej efektywności kosztowej.
W praktyce nie chodzi o to, czy każdy benchmark DeepSeek należy traktować jak bezpośredni dowód przewagi nad zamkniętymi modelami z USA.
Ważniejsze jest to, że DeepSeek przesunął granicę oczekiwań wobec modeli otwartych: skoro laboratorium spoza amerykańskiego centrum rynku potrafi opublikować model rozumujący, którego wyniki są porównywane z modelami klasy OpenAI o1, to firmy, uczelnie i administracja zaczynają inaczej liczyć koszty wdrożenia AI.
Najbardziej konkretna część historii zaczyna się od DeepSeek-V3.
W raporcie technicznym z grudnia 2024 r.
autorzy opisali model typu mixture-of-experts o 671 miliardach parametrów całkowitych i około 37 miliardach parametrów aktywnych na token.