DeepSeek令人驚訝的是廉價的AI聊天機器人挑戰行業巨頭。 DeepSeek的AI自我引入“問任何東西,得到令人驚訝的答案”的自我吸引已成為主要的市場競爭對手,甚至導致NVIDIA的股價大幅下降。它的成功源於創新技術和實質性(盡管未公開)投資的獨特組合。
圖像:ensigame.com
關鍵技術進步包括:
- 多語預測(MTP):同時預測多個單詞,提高準確性和效率。
- 專家的混合物(MOE):使用256個神經網絡,每個令牌激活8個,加速培訓並提高性能。
- 多頭潛在注意力(MLA):反複從文本片段中提取關鍵信息,從而最大程度地減少了忽略關鍵細節的風險。
DeepSeek最初聲稱使用2048 GPU的DeepSeek V3型號僅獲得600萬美元的培訓成本。然而,半分析顯示出更廣泛的基礎設施,包括大約50,000個NVIDIA HOPPER GPU(包括H800,H100和H20單位),分布在多個數據中心。該基礎設施的總服務器投資約為16億美元,運營費用估計為9.44億美元。
圖像:ensigame.com
中國對衝基金High-Flyer的子公司DeepSeek擁有其數據中心,提供了對優化和更快的創新實施的控製。它的自籌資金地位增強了敏捷性。該公司吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要來自中國大學。
最初的600萬美元數字可能隻反映了培訓前的GPU成本,不包括研究,改進,數據處理和整體基礎設施費用。 DeepSeek的總AI開發投資超過5億美元。與更大的官僚競爭者相比,它的簡化結構允許有效的創新。
圖像:ensigame.com
盡管DeepSeek的成功展示了一家資金充足的獨立AI公司的競爭潛力,但“革命預算”主張卻具有誤導性。他們的成功歸因於大量投資,技術突破和強大的團隊。但是,即使有了這些巨大的支出,DeepSeek的成本仍然比競爭對手低得多。例如,DeepSeek的R1型號的培訓成本為500萬美元,而Chatgpt4的1億美元。
圖像:ensigame.com