Deepseekの驚くほど安価なAIチャットボットは、業界の巨人に挑戦しています。 「何でも聞いて、驚くべき答えを得る」の自己紹介を誇っているDeepseekのAIは、Nvidiaの株価の大幅な低下を引き起こしていることさえあります。その成功は、革新的なテクノロジーと、非公開ではあるが、実質的な投資のユニークな組み合わせに由来しています。
画像:Ensigame.com
重要な技術の進歩には次のものがあります。
- マルチトークン予測(MTP):複数の単語を同時に予測し、精度と効率を高めます。
- 専門家(MOE)の混合物: 256のニューラルネットワークを採用し、トークンごとに8つをアクティブにし、トレーニングを加速し、パフォーマンスを向上させます。
- マルチヘッドの潜在的注意(MLA):テキストフラグメントから重要な情報を繰り返し抽出し、重要な詳細を見落とすリスクを最小限に抑えます。
Deepseekは当初、2048 GPUを使用してDeepSeek V3モデルのわずか600万ドルのトレーニングコストを主張しました。ただし、セミアン癒合により、はるかに広範なインフラストラクチャが明らかになり、複数のデータセンターに広がる約50,000個のNVIDIAホッパーGPU(H800、H100、およびH20ユニットを含む)が含まれています。このインフラストラクチャは、約16億ドルのサーバー投資総投資を表しており、運用費用は9億4,400万ドルと推定されています。
画像:Ensigame.com
中国のヘッジファンドであるHigh-Flyerの子会社であるDeepseekは、データセンターを所有しており、最適化とより高速なイノベーションの実装を管理しています。その自己資金のステータスは敏ility性を高めます。同社はトップの才能を引き付け、一部の研究者は主に中国の大学で年間130万ドル以上を稼いでいます。
最初の600万ドルの数値は、研究、洗練、データ処理、および全体的なインフラ費用を除く、トレーニング前のGPUコストのみを反映している可能性があります。 Deepseekの総AI開発投資は5億ドルを超えています。その合理化された構造により、より大きく、より官僚的な競合他社と比較して、効率的なイノベーションが可能になります。
画像:Ensigame.com
Deepseekの成功は、資金提供された独立したAI企業の競争の可能性を示していますが、「革新的な予算」請求は誤解を招くものです。彼らの成功は、実質的な投資、技術的なブレークスルー、強力なチームに起因しています。ただし、これらの重要な支出があっても、Deepseekのコストは競合他社よりもかなり低いままです。たとえば、DeepseekのR1モデルは、ChatGPT4の1億ドルと比較して、500万ドルのトレーニングにかかります。
画像:Ensigame.com