Ang nakakagulat na Deepseek ay murang mga hamon sa industriya ng AI chatbot. Ipinagmamalaki ang isang pagpapakilala sa sarili ng "magtanong kahit ano, kumuha ng isang nakakagulat na sagot," ang Deepseek's AI ay naging isang pangunahing katunggali sa merkado, kahit na nagdudulot ng mga makabuluhang patak sa presyo ng stock ng Nvidia. Ang tagumpay nito ay nagmumula sa isang natatanging kumbinasyon ng makabagong teknolohiya at malaki, kahit na hindi natukoy, pamumuhunan.
Imahe: ensigame.com
Ang mga pangunahing pagsulong sa teknolohiya ay kasama ang:
- Multi-Token Prediction (MTP): Hinuhulaan ng maraming mga salita nang sabay-sabay, pagpapalakas ng kawastuhan at kahusayan.
- Paghahalo ng mga eksperto (MOE): Gumagamit ng 256 Neural Networks, pag -activate ng walong para sa bawat token, pabilis na pagsasanay at pagpapabuti ng pagganap.
- Multi-head Latent pansin (MLA): Paulit-ulit na kinukuha ang mga pangunahing impormasyon mula sa mga fragment ng teksto, na binabawasan ang panganib ng pagtatanaw ng mga mahahalagang detalye.
Una nang inangkin ng Deepseek ang isang $ 6 milyong gastos sa pagsasanay para sa modelo ng Deepseek V3 gamit ang 2048 GPU. Gayunpaman, ang semianalysis ay nagsiwalat ng isang mas malawak na imprastraktura, na sumasaklaw sa humigit -kumulang na 50,000 NVIDIA HOPPER GPUs (kabilang ang H800, H100, at H20 unit) na kumalat sa maraming mga sentro ng data. Ang imprastraktura na ito ay kumakatawan sa isang kabuuang pamumuhunan ng server na humigit -kumulang na $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon.
Imahe: ensigame.com
Ang DeepSeek, isang subsidiary ng high-flyer, isang pondo ng hedge ng Tsino, ay nagmamay-ari ng mga sentro ng data nito, na nagbibigay ng kontrol sa pag-optimize at mas mabilis na pagpapatupad ng pagbabago. Ang katayuan na pinondohan ng sarili ay nagpapabuti ng liksi. Ang kumpanya ay umaakit sa nangungunang talento, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, lalo na mula sa mga unibersidad sa Tsino.
Ang paunang $ 6 milyong figure ay malamang na sumasalamin lamang sa mga pre-pagsasanay na gastos sa GPU, hindi kasama ang pananaliksik, pagpipino, pagproseso ng data, at pangkalahatang gastos sa imprastraktura. Ang kabuuang pamumuhunan sa pag -unlad ng Deepseek ay lumampas sa $ 500 milyon. Ang streamline na istraktura nito ay nagbibigay -daan para sa mahusay na pagbabago kumpara sa mas malaki, mas maraming mga kakumpitensya sa burukrasya.
Imahe: ensigame.com
Habang ang tagumpay ng Deepseek ay nagpapakita ng mapagkumpitensyang potensyal ng isang mahusay na pondo na independiyenteng kumpanya ng AI, ang "rebolusyonaryong badyet" na pag-angkin ay nakaliligaw. Ang kanilang tagumpay ay maiugnay sa malaking pamumuhunan, mga pambihirang tagumpay sa teknolohiya, at isang malakas na koponan. Gayunpaman, kahit na sa mga makabuluhang paggasta na ito, ang mga gastos sa Deepseek ay nananatiling mas mababa kaysa sa mga kakumpitensya. Halimbawa, ang modelo ng R1 ng Deepseek ay nagkakahalaga ng $ 5 milyon upang sanayin, kumpara sa $ 100 milyon ng ChatGPT4.
Imahe: ensigame.com